RESEARCH27

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

arXiv CS.AI·13 de maio de 2026

A destilação on-policy (OPD) e a autodestilação on-policy (OPSD) são métodos promissores de pós-treinamento para grandes modelos de linguagem, mas sua eficácia é variável. Esta pesquisa investiga empiricamente seus sucessos e falhas, identificando sensibilidades na escolha do professor e problemas com informações privilegiadas.

LLMs distillation learning machine learning AI Reasoning

Ler original ↗