heapsort
RESEARCH27

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

arXiv CS.CL·15 avril 2026

Self-Distillation Zero (SD-Zero) est une nouvelle méthode de post-entraînement plus efficace en termes d'échantillons que l'apprentissage par renforcement, sans nécessiter d'enseignants externes ou de démonstrations de haute qualité. Elle entraîne un modèle unique à jouer les rôles de Générateur et de Réviseur, transformant les récompenses binaires éparses en une supervision dense via l'autodistillation.

Lire l'original