notch
RESEARCH27

Revealing the Learning Dynamics of Long-Context Continual Pre-training

arXiv CS.CL·6 de abril de 2026

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

Long-Context Continual Pre-trainingmodel evaluationPre-training Dynamicslarge language modelsContinual Learning
Ler original