Research Paper — articles, actualités et recherches IA

RESEARCHarXiv CS.CL·16/04/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Cet article affirme que le principal goulot d'étranglement dans la mise à l'échelle multimodale des MLLM est la densité de connaissances dans les données d'entraînement, et non le format des tâches. Il montre que la supervision spécifique aux tâches, comme le VQA, ajoute peu d'informations sémantiques au-delà des légendes d'images et que l'augmentation de la densité de connaissances améliore constamment les performances.

multimodal AI LLMs machine learning Research Paper