RESEARCH27
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision
arXiv CS.CL·15 de abril de 2026
Self-Distillation Zero (SD-Zero) é um novo método de pós-treinamento que supera a eficiência de amostras do RL, dispensando professores externos ou demonstrações de alta qualidade. Ele treina um único modelo para atuar como Gerador e Revisor, transformando recompensas binárias esparsas em supervisão densa por meio de autodistilação.
Ler original ↗