RESEARCH27
The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes
arXiv CS.AI·13 de mayo de 2026
La destilación on-policy (OPD) y la autodestilación on-policy (OPSD) son métodos prometedores de post-entrenamiento para grandes modelos de lenguaje, pero su eficacia es mixta. Esta investigación estudia empíricamente cuándo y por qué funcionan o fallan, identificando sensibilidades a la elección del profesor e inconvenientes con la información privilegiada.
Leer original ↗