heapsort
RESEARCH27

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

arXiv CS.CL·17. April 2026

Diese Forschung schlägt TESSY, ein Framework zur Datensynthese durch Lehrer-Schüler-Kooperation, vor, um Leistungsabfälle beim Fine-Tuning von Reasoning-Modellen mit von Lehrern generierten Daten zu beheben. TESSY ermöglicht die Generierung synthetischer Sequenzen, die fortschrittliches Reasoning vom Lehrer erben und gleichzeitig die stilistische Konsistenz mit der Verteilung des Schülermodells beibehalten.

Original lesen