RESEARCH27

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

arXiv CS.CL·15. April 2026

SD-Zero (Self-Distillation Zero) ist eine neuartige Post-Training-Methode, die darauf ausgelegt ist, trainingseffizienter als herkömmliches Reinforcement Learning zu sein, ohne externe Lehrer oder hochwertige Demonstrationen zu benötigen. Dabei agiert ein einziges Modell als Generator und Reviser, wobei die verbesserten Antworten und Token-Verteilungen des Revisers genutzt werden, um dem Generator mittels On-Policy-Selbst-Destillation eine dichte Supervision zu bieten.

reinforcement learning post-training Dense Supervision Self-Distillation large language models

Original lesen ↗