heapsort
RESEARCH27

Confidence Calibration in Large Language Models

arXiv CS.AI·26 de mayo de 2026

Este estudio examina la calibración de la confianza en Grandes Modelos de Lenguaje (LLMs) en diversas tareas, mostrando que los LLMs actuales son demasiado confiados en pruebas difíciles y subconfiados en las fáciles. Los investigadores desarrollaron LifeEval, una nueva prueba para evaluar la calibración del modelo en diferentes niveles de dificultad.

Leer original