heapsort
RESEARCH27

Distillation that keeps confidence honest

DEV.to AI·10 de maio de 2026

A destilação on-policy tradicional (OPD) faz com que modelos menores (estudantes) exibam excesso de confiança devido ao acesso do modelo maior (professor) a um contexto privilegiado. Um novo trabalho formaliza este desajuste e propõe o CaOPD para corrigir essa ilusão de certeza sem sacrificar os ganhos de precisão.

Ler original