heapsort
RESEARCH32

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

arXiv CS.LG·17. April 2026

MixAtlas führt eine unsicherheitsbewusste Methode zur Optimierung von Datenmischungen im Midtraining multimodaler LLMs ein, indem es Korpora entlang von Bildkonzepten und Aufgabenüberwachung zerlegt. Mithilfe von Proxy-Modellen und einem Gaußschen Prozess-Surrogat findet es leistungsfähigere Datenrezepte für verbesserte Stichprobenökonomie und Generalisierung.

Original lesen