RESEARCH27
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision
arXiv CS.CL·15 avril 2026
Self-Distillation Zero (SD-Zero) est une nouvelle méthode de post-entraînement plus efficace en termes d'échantillons que l'apprentissage par renforcement, sans nécessiter d'enseignants externes ou de démonstrations de haute qualité. Elle entraîne un modèle unique à jouer les rôles de Générateur et de Réviseur, transformant les récompenses binaires éparses en une supervision dense via l'autodistillation.
Lire l'original ↗