RESEARCHarXiv CS.CL·16/04/2026
Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling
Cet article affirme que le principal goulot d'étranglement dans la mise à l'échelle multimodale des MLLM est la densité de connaissances dans les données d'entraînement, et non le format des tâches. Il montre que la supervision spécifique aux tâches, comme le VQA, ajoute peu d'informations sémantiques au-delà des légendes d'images et que l'augmentation de la densité de connaissances améliore constamment les performances.
27