RESEARCH55
Post-training is (Massive) Supervised Learning
arXiv CS.CL·9. Juni 2026
Dieses Papier argumentiert, dass das vorherrschende Post-Trainings-Paradigma für LLMs, das SFT und RL umfasst, effektiv zu dem Ansatz "vorab trainieren und dann feinabstimmen" zurückkehrt, indem Modelle explizit auf gewünschte Verhaltensweisen und spezifische Benchmarks zugeschnitten werden. Empirische Beweise zeigen, dass von Grund auf neu post-trainierte Modelle eine nicht-triviale Leistung auf Reasoning-Datensätzen erzielen können.
Original lesen ↗