heapsort
RESEARCH27

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

arXiv CS.CL·15 de abril de 2026

Self-Distillation Zero (SD-Zero) é um novo método de pós-treinamento que supera a eficiência de amostras do RL, dispensando professores externos ou demonstrações de alta qualidade. Ele treina um único modelo para atuar como Gerador e Revisor, transformando recompensas binárias esparsas em supervisão densa por meio de autodistilação.

Ler original