← heapsort-ai

Dense Supervision

1 items

RESEARCHarXiv CS.CL·15/04/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) é um novo método de pós-treinamento que supera a eficiência de amostras do RL, dispensando professores externos ou demonstrações de alta qualidade. Ele treina um único modelo para atuar como Gerador e Revisor, transformando recompensas binárias esparsas em supervisão densa por meio de autodistilação.

27