← heapsort-ai

data optimization

3 items

RESEARCHarXiv CS.LG·4/17/2026

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

MixAtlas führt eine unsicherheitsbewusste Methode zur Optimierung von Datenmischungen im Midtraining multimodaler LLMs ein, indem es Korpora entlang von Bildkonzepten und Aufgabenüberwachung zerlegt. Mithilfe von Proxy-Modellen und einem Gaußschen Prozess-Surrogat findet es leistungsfähigere Datenrezepte für verbesserte Stichprobenökonomie und Generalisierung.

32
RESEARCHarXiv CS.CL·4/21/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Dieses Papier bietet eine umfassende Übersicht über Datenmischung für das Vortraining großer Sprachmodelle (LLMs), ein entscheidender Faktor für Trainingseffizienz und nachgelagerte Generalisierung. Es formalisiert die Datenmischungsoptimierung als ein zweistufiges Problem und führt eine detaillierte Taxonomie für bestehende Methoden ein.

27