RESEARCHDEV.to AI·10/05/2026
Distillation that keeps confidence honest
A destilação on-policy tradicional (OPD) faz com que modelos menores (estudantes) exibam excesso de confiança devido ao acesso do modelo maior (professor) a um contexto privilegiado. Um novo trabalho formaliza este desajuste e propõe o CaOPD para corrigir essa ilusão de certeza sem sacrificar os ganhos de precisão.
27