heapsort
RESEARCH27

Confidence Calibration in Large Language Models

arXiv CS.AI·26 de maio de 2026

Este estudo investiga a calibração da confiança em Grandes Modelos de Linguagem (LLMs) em diversas tarefas, revelando que os LLMs atuais exibem superconfiança em testes difíceis e subconfiança em testes fáceis. Os pesquisadores desenvolveram o LifeEval, uma nova ferramenta para avaliar a calibração de modelos em diferentes níveis de dificuldade.

Ler original