RESEARCH27

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

arXiv CS.AI·13. Mai 2026

On-Policy-Destillation (OPD) und On-Policy-Selbst-Destillation (OPSD) sind vielversprechende Post-Training-Methoden für große Sprachmodelle, deren Wirksamkeit jedoch gemischt ist. Diese Forschung untersucht empirisch, wann und warum sie funktionieren oder scheitern, und identifiziert Empfindlichkeiten bei der Lehrerwahl und Probleme mit privilegierten Informationen.

LLMs distillation learning machine learning AI Reasoning

Original lesen ↗