Post-training is (Massive) Supervised Learning
Dieses Papier argumentiert, dass das vorherrschende Post-Trainings-Paradigma für LLMs, das SFT und RL umfasst, effektiv zu dem Ansatz "vorab trainieren und dann feinabstimmen" zurückkehrt, indem Modelle explizit auf gewünschte Verhaltensweisen und spezifische Benchmarks zugeschnitten werden. Empirische Beweise zeigen, dass von Grund auf neu post-trainierte Modelle eine nicht-triviale Leistung auf Reasoning-Datensätzen erzielen können.

