heapsort
RESEARCH27

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

arXiv CS.CL·16 de abril de 2026

Este artículo sostiene que el cuello de botella principal en la escalabilidad multimodal de los MLLM es la densidad de conocimiento en los datos de entrenamiento, no el formato de la tarea. Demuestra que la supervisión específica de la tarea como VQA aporta poca información incremental más allá de los subtítulos de imagen y que aumentar la densidad de conocimiento mejora consistentemente el rendimiento.

Leer original