How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
Esta pesquisa propõe TESSY, um framework de Síntese de Dados por Cooperação Professor-Aluno, para resolver quedas de desempenho ao ajustar modelos de raciocínio com dados gerados por um modelo mais forte. O TESSY permite a geração de sequências sintéticas que herdam capacidades avançadas de raciocínio do professor, mantendo a consistência estilística com a distribuição do modelo aluno.