RESEARCH27

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

arXiv CS.CL·21 de abril de 2026

Este artigo oferece uma pesquisa abrangente sobre a mistura de dados para o pré-treinamento de Large Language Models (LLMs), um fator crucial para a eficiência do treinamento e a generalização posterior. Ele formaliza a otimização da mistura de dados como um problema de dois níveis e introduz uma taxonomia detalhada para os métodos existentes.

data optimization pretraining machine learning large language models AI Research

Ler original ↗