heapsort
RESEARCH27

Confidence Calibration in Large Language Models

arXiv CS.AI·26 mai 2026

Cette étude examine la calibration de la confiance des Grands Modèles de Langage (LLMs) sur diverses tâches, révélant que les LLMs actuels sont trop sûrs d'eux sur les tests difficiles et sous-confiants sur les tests faciles. Les chercheurs ont développé LifeEval, un nouveau test pour évaluer la calibration des modèles à travers différents niveaux de difficulté.

Lire l'original