heapsort
RESEARCH27

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

arXiv CS.CL·16 de abril de 2026

Este artigo argumenta que o principal gargalo na escala de modelos multimodais (MLLMs) é a densidade de conhecimento nos dados de treinamento, não o formato da tarefa. Mostra que a supervisão específica da tarefa, como VQA, contribui pouco além das legendas, e que aumentar a densidade de conhecimento leva a melhorias consistentes de desempenho.

Ler original