RESEARCH27
Data Mixing for Large Language Models Pretraining: A Survey and Outlook
arXiv CS.CL·21. April 2026
Dieses Papier bietet eine umfassende Übersicht über Datenmischung für das Vortraining großer Sprachmodelle (LLMs), ein entscheidender Faktor für Trainingseffizienz und nachgelagerte Generalisierung. Es formalisiert die Datenmischungsoptimierung als ein zweistufiges Problem und führt eine detaillierte Taxonomie für bestehende Methoden ein.
Original lesen ↗