RESEARCH27

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

arXiv CS.AI·13 mai 2026

La distillation on-policy (OPD) et l'autodistillation on-policy (OPSD) sont des méthodes post-entraînement prometteuses pour les grands modèles de langage, mais leur efficacité varie. Cette étude examine empiriquement leurs réussites et échecs, identifiant des sensibilités au choix de l'enseignant et des problèmes d'information privilégiée.

LLMs distillation learning machine learning AI Reasoning

Lire l'original ↗