heapsort
RESEARCH27

Confidence Calibration in Large Language Models

arXiv CS.AI·26. Mai 2026

Diese Studie untersucht die Konfidenzkalibrierung großer Sprachmodelle (LLMs) bei verschiedenen Aufgaben und zeigt, dass aktuelle LLMs bei schwierigen Tests überkonfident und bei einfachen Tests unterkonfident sind. Die Forscher entwickelten LifeEval, einen neuen Test zur Bewertung der Modellkalibrierung über verschiedene Schwierigkeitsgrade hinweg.

Original lesen