Post-training is (Massive) Supervised Learning
Este artículo sostiene que el paradigma predominante de post-entrenamiento para LLMs, que incluye SFT y RL, revierte efectivamente al enfoque de "pre-entrenar y luego ajustar", adaptando los modelos explícitamente a benchmarks específicos. La evidencia empírica demuestra que los modelos post-entrenados desde cero pueden ofrecer un rendimiento significativo en conjuntos de datos de razonamiento.

