RESEARCH32
MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining
arXiv CS.LG·17. April 2026
MixAtlas führt eine unsicherheitsbewusste Methode zur Optimierung von Datenmischungen im Midtraining multimodaler LLMs ein, indem es Korpora entlang von Bildkonzepten und Aufgabenüberwachung zerlegt. Mithilfe von Proxy-Modellen und einem Gaußschen Prozess-Surrogat findet es leistungsfähigere Datenrezepte für verbesserte Stichprobenökonomie und Generalisierung.
Original lesen ↗