RESEARCH27
Data Mixing for Large Language Models Pretraining: A Survey and Outlook
arXiv CS.CL·21 de abril de 2026
Este artigo oferece uma pesquisa abrangente sobre a mistura de dados para o pré-treinamento de Large Language Models (LLMs), um fator crucial para a eficiência do treinamento e a generalização posterior. Ele formaliza a otimização da mistura de dados como um problema de dois níveis e introduz uma taxonomia detalhada para os métodos existentes.
Ler original ↗