RESEARCH27

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

arXiv CS.CL·21 avril 2026

Cet article propose une étude complète sur le mélange de données pour le pré-entraînement des grands modèles linguistiques (LLM), un facteur essentiel pour l'efficacité de l'entraînement et la généralisation en aval. Il formalise l'optimisation du mélange de données comme un problème à deux niveaux et introduit une taxonomie détaillée pour les méthodes existantes.

data optimization pretraining machine learning large language models AI Research

Lire l'original ↗