RESEARCH27

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

arXiv CS.AI·13 de mayo de 2026

La destilación on-policy (OPD) y la autodestilación on-policy (OPSD) son métodos prometedores de post-entrenamiento para grandes modelos de lenguaje, pero su eficacia es mixta. Esta investigación estudia empíricamente cuándo y por qué funcionan o fallan, identificando sensibilidades a la elección del profesor e inconvenientes con la información privilegiada.

LLMs distillation learning machine learning AI Reasoning

Leer original ↗