RESEARCH27
Confidence Calibration in Large Language Models
arXiv CS.AI·26 mai 2026
Cette étude examine la calibration de la confiance des Grands Modèles de Langage (LLMs) sur diverses tâches, révélant que les LLMs actuels sont trop sûrs d'eux sur les tests difficiles et sous-confiants sur les tests faciles. Les chercheurs ont développé LifeEval, un nouveau test pour évaluer la calibration des modèles à travers différents niveaux de difficulté.
Lire l'original ↗