← heapsort-ai

Confidence Calibration

2 items

RESEARCHarXiv CS.AI·hace 14d

Confidence Calibration in Large Language Models

Este estudio examina la calibración de la confianza en Grandes Modelos de Lenguaje (LLMs) en diversas tareas, mostrando que los LLMs actuales son demasiado confiados en pruebas difíciles y subconfiados en las fáciles. Los investigadores desarrollaron LifeEval, una nueva prueba para evaluar la calibración del modelo en diferentes niveles de dificultad.

27