RESEARCH27
Data Mixing for Large Language Models Pretraining: A Survey and Outlook
arXiv CS.CL·21 avril 2026
Cet article propose une étude complète sur le mélange de données pour le pré-entraînement des grands modèles linguistiques (LLM), un facteur essentiel pour l'efficacité de l'entraînement et la généralisation en aval. Il formalise l'optimisation du mélange de données comme un problème à deux niveaux et introduit une taxonomie détaillée pour les méthodes existantes.
Lire l'original ↗