RESEARCH27

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

arXiv CS.CL·16. April 2026

Diese Arbeit argumentiert, dass der primäre Engpass beim multimodalen Skalieren von MLLMs die Wissensdichte in den Trainingsdaten und nicht das Aufgabenformat ist. Es demonstriert, dass aufgabenspezifische Supervision wie VQA kaum inkrementelle semantische Informationen über Bildunterschriften hinaus liefert und dass eine Erhöhung der Wissensdichte zu konsistenten Leistungsverbesserungen führt.

multimodal AI LLMs machine learning Research Paper training data

Original lesen ↗