← heapsort-ai

Research Paper

1 items

RESEARCHarXiv CS.CL·16/4/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Este artículo sostiene que el cuello de botella principal en la escalabilidad multimodal de los MLLM es la densidad de conocimiento en los datos de entrenamiento, no el formato de la tarea. Demuestra que la supervisión específica de la tarea como VQA aporta poca información incremental más allá de los subtítulos de imagen y que aumentar la densidad de conocimiento mejora consistentemente el rendimiento.

27