heapsort
RESEARCH55

Post-training is (Massive) Supervised Learning

arXiv CS.CL·9. Juni 2026

Dieses Papier argumentiert, dass das vorherrschende Post-Trainings-Paradigma für LLMs, das SFT und RL umfasst, effektiv zu dem Ansatz "vorab trainieren und dann feinabstimmen" zurückkehrt, indem Modelle explizit auf gewünschte Verhaltensweisen und spezifische Benchmarks zugeschnitten werden. Empirische Beweise zeigen, dass von Grund auf neu post-trainierte Modelle eine nicht-triviale Leistung auf Reasoning-Datensätzen erzielen können.

Original lesen