RESEARCH27
The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes
arXiv CS.AI·13 mai 2026
La distillation on-policy (OPD) et l'autodistillation on-policy (OPSD) sont des méthodes post-entraînement prometteuses pour les grands modèles de langage, mais leur efficacité varie. Cette étude examine empiriquement leurs réussites et échecs, identifiant des sensibilités au choix de l'enseignant et des problèmes d'information privilégiée.
Lire l'original ↗