← heapsort-ai

pretraining

5 items

RESEARCHarXiv CS.CL·21/04/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Este artigo oferece uma pesquisa abrangente sobre a mistura de dados para o pré-treinamento de Large Language Models (LLMs), um fator crucial para a eficiência do treinamento e a generalização posterior. Ele formaliza a otimização da mistura de dados como um problema de dois níveis e introduz uma taxonomia detalhada para os métodos existentes.

27
RESEARCHarXiv CS.LG·8d atrás

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

Unicorn é um novo framework para previsão de séries temporais de alta dimensão escalável, superando as limitações dos modelos existentes ao aprender padrões de correlação universais. Ele utiliza um livro de códigos de protótipos latentes, superando significativamente arquiteturas de ponta em cenários de transferência few-shot.

27