RESEARCH47

Post-training is (Massive) Supervised Learning

arXiv CS.CL·9 de junho de 2026

Este artigo argumenta que o paradigma dominante de pós-treinamento para LLMs, que envolve SFT e RL, reverte efetivamente para a abordagem de "pré-treinar e depois ajustar", adaptando modelos explicitamente a benchmarks específicos. Evidências empíricas demonstram que modelos pós-treinados do zero podem apresentar desempenho significativo em conjuntos de dados de raciocínio.

LLMs machine learning Benchmarking Training Fine-tuning

Ler original ↗