RESEARCH27
Distillation that keeps confidence honest
DEV.to AI·10 de maio de 2026
A destilação on-policy tradicional (OPD) faz com que modelos menores (estudantes) exibam excesso de confiança devido ao acesso do modelo maior (professor) a um contexto privilegiado. Um novo trabalho formaliza este desajuste e propõe o CaOPD para corrigir essa ilusão de certeza sem sacrificar os ganhos de precisão.
Ler original ↗