RESEARCH27
Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling
arXiv CS.CL·16 de abril de 2026
Este artículo sostiene que el cuello de botella principal en la escalabilidad multimodal de los MLLM es la densidad de conocimiento en los datos de entrenamiento, no el formato de la tarea. Demuestra que la supervisión específica de la tarea como VQA aporta poca información incremental más allá de los subtítulos de imagen y que aumentar la densidad de conocimiento mejora consistentemente el rendimiento.
Leer original ↗