RESEARCH47
Post-training is (Massive) Supervised Learning
arXiv CS.CL·9 de junho de 2026
Este artigo argumenta que o paradigma dominante de pós-treinamento para LLMs, que envolve SFT e RL, reverte efetivamente para a abordagem de "pré-treinar e depois ajustar", adaptando modelos explicitamente a benchmarks específicos. Evidências empíricas demonstram que modelos pós-treinados do zero podem apresentar desempenho significativo em conjuntos de dados de raciocínio.
Ler original ↗