RESEARCH27
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision
arXiv CS.CL·15 de abril de 2026
Self-Distillation Zero (SD-Zero) es un nuevo método de post-entrenamiento que es más eficiente en muestras que el aprendizaje por refuerzo tradicional, sin necesidad de profesores externos o demostraciones de alta calidad. Funciona entrenando un único modelo para ser tanto Generador como Revisor, convirtiendo las recompensas binarias dispersas en supervisión densa a través de la autodestilación.
Leer original ↗