RESEARCH27
Confidence Calibration in Large Language Models
arXiv CS.AI·26 de maio de 2026
Este estudo investiga a calibração da confiança em Grandes Modelos de Linguagem (LLMs) em diversas tarefas, revelando que os LLMs atuais exibem superconfiança em testes difíceis e subconfiança em testes fáceis. Os pesquisadores desenvolveram o LifeEval, uma nova ferramenta para avaliar a calibração de modelos em diferentes níveis de dificuldade.
Ler original ↗