← heapsort-ai

pretraining

5 items

RESEARCHarXiv CS.CL·21/4/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Este artículo presenta una encuesta exhaustiva sobre la mezcla de datos para el preentrenamiento de Large Language Models (LLMs), un factor crucial para la eficiencia del entrenamiento y la generalización posterior. Formaliza la optimización de la mezcla de datos como un problema de dos niveles e introduce una taxonomía detallada para los métodos existentes.

27
RESEARCHarXiv CS.LG·hace 8d

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn es un nuevo framework para la previsión escalable de series temporales de alta dimensión, que supera la dicotomía entre modelos dependientes e independientes del canal. Utiliza un libro de códigos de prototipos latentes para aprender patrones de correlación universales, superando significativamente las arquitecturas de vanguardia en escenarios de transferencia de pocos ejemplos.

27