← heapsort-ai

Research Paper

1 items

RESEARCHarXiv CS.CL·4/16/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Diese Arbeit argumentiert, dass der primäre Engpass beim multimodalen Skalieren von MLLMs die Wissensdichte in den Trainingsdaten und nicht das Aufgabenformat ist. Es demonstriert, dass aufgabenspezifische Supervision wie VQA kaum inkrementelle semantische Informationen über Bildunterschriften hinaus liefert und dass eine Erhöhung der Wissensdichte zu konsistenten Leistungsverbesserungen führt.

27