RESEARCH27
Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling
arXiv CS.CL·16 de abril de 2026
Este artigo argumenta que o principal gargalo na escala de modelos multimodais (MLLMs) é a densidade de conhecimento nos dados de treinamento, não o formato da tarefa. Mostra que a supervisão específica da tarefa, como VQA, contribui pouco além das legendas, e que aumentar a densidade de conhecimento leva a melhorias consistentes de desempenho.
Ler original ↗