RESEARCHDEV.to AI·5/10/2026
Distillation that keeps confidence honest
Traditionelle On-Policy-Destillation (OPD) führt dazu, dass kleinere Schülermodelle übermäßiges Vertrauen zeigen, da das größere Lehrermodell Zugang zu privilegiertem Kontext hat. Neue Forschung formalisiert diese Diskrepanz und schlägt CaOPD vor, um diese Gewissheitsillusion ohne Einbußen bei der Genauigkeit zu korrigieren.
27