heapsort
RESEARCH55

Post-training is (Massive) Supervised Learning

arXiv CS.CL·9 de junio de 2026

Este artículo sostiene que el paradigma predominante de post-entrenamiento para LLMs, que incluye SFT y RL, revierte efectivamente al enfoque de "pre-entrenar y luego ajustar", adaptando los modelos explícitamente a benchmarks específicos. La evidencia empírica demuestra que los modelos post-entrenados desde cero pueden ofrecer un rendimiento significativo en conjuntos de datos de razonamiento.

Leer original