RESEARCH27

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

arXiv CS.CL·21. April 2026

Dieses Papier bietet eine umfassende Übersicht über Datenmischung für das Vortraining großer Sprachmodelle (LLMs), ein entscheidender Faktor für Trainingseffizienz und nachgelagerte Generalisierung. Es formalisiert die Datenmischungsoptimierung als ein zweistufiges Problem und führt eine detaillierte Taxonomie für bestehende Methoden ein.

data optimization pretraining machine learning large language models AI Research

Original lesen ↗