← heapsort-ai

Research Paper

1 items

RESEARCHarXiv CS.CL·16/04/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Este artigo argumenta que o principal gargalo na escala de modelos multimodais (MLLMs) é a densidade de conhecimento nos dados de treinamento, não o formato da tarefa. Mostra que a supervisão específica da tarefa, como VQA, contribui pouco além das legendas, e que aumentar a densidade de conhecimento leva a melhorias consistentes de desempenho.

27