How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
Esta investigación propone TESSY, un marco de Síntesis de Datos por Cooperación Profesor-Estudiante, para abordar las caídas de rendimiento al ajustar modelos de razonamiento con datos generados por un modelo más fuerte. TESSY permite la generación de secuencias sintéticas que heredan capacidades avanzadas de razonamiento del profesor, manteniendo la consistencia estilística con la distribución del modelo estudiante.