RESEARCH27
Confidence Calibration in Large Language Models
arXiv CS.AI·26. Mai 2026
Diese Studie untersucht die Konfidenzkalibrierung großer Sprachmodelle (LLMs) bei verschiedenen Aufgaben und zeigt, dass aktuelle LLMs bei schwierigen Tests überkonfident und bei einfachen Tests unterkonfident sind. Die Forscher entwickelten LifeEval, einen neuen Test zur Bewertung der Modellkalibrierung über verschiedene Schwierigkeitsgrade hinweg.
Original lesen ↗