heapsort
RESEARCH27

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

arXiv CS.CL·17 de abril de 2026

Esta investigación propone TESSY, un marco de Síntesis de Datos por Cooperación Profesor-Estudiante, para abordar las caídas de rendimiento al ajustar modelos de razonamiento con datos generados por un modelo más fuerte. TESSY permite la generación de secuencias sintéticas que heredan capacidades avanzadas de razonamiento del profesor, manteniendo la consistencia estilística con la distribución del modelo estudiante.

Leer original