RESEARCH27
The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes
arXiv CS.AI·13. Mai 2026
On-Policy-Destillation (OPD) und On-Policy-Selbst-Destillation (OPSD) sind vielversprechende Post-Training-Methoden für große Sprachmodelle, deren Wirksamkeit jedoch gemischt ist. Diese Forschung untersucht empirisch, wann und warum sie funktionieren oder scheitern, und identifiziert Empfindlichkeiten bei der Lehrerwahl und Probleme mit privilegierten Informationen.
Original lesen ↗