heapsort
RESEARCH27

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

arXiv CS.CL·17 avril 2026

Cette recherche propose TESSY, un cadre de Synthèse de Données par Coopération Enseignant-Élève, pour remédier aux baisses de performance lors du réglage fin de modèles de raisonnement avec des données générées par un modèle plus fort. TESSY permet la génération de séquences synthétiques qui héritent des capacités de raisonnement avancées de l'enseignant tout en maintenant une cohérence stylistique avec la distribution du modèle élève.

Lire l'original