Post-training is (Massive) Supervised Learning
Cet article soutient que le paradigme dominant de post-formation pour les LLM, impliquant SFT et RL, revient effectivement à l'approche "pré-entraîner puis affiner", adaptant explicitement les modèles à des benchmarks spécifiques. Des preuves empiriques montrent que les modèles post-entraînés à partir de zéro peuvent produire des performances non négligeables sur des ensembles de données de raisonnement.

