How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
Diese Forschung schlägt TESSY, ein Framework zur Datensynthese durch Lehrer-Schüler-Kooperation, vor, um Leistungsabfälle beim Fine-Tuning von Reasoning-Modellen mit von Lehrern generierten Daten zu beheben. TESSY ermöglicht die Generierung synthetischer Sequenzen, die fortschrittliches Reasoning vom Lehrer erben und gleichzeitig die stilistische Konsistenz mit der Verteilung des Schülermodells beibehalten.