Overconfidence

2 items

RESEARCHarXiv CS.CL·4/14/2026

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Große Sprachmodelle sind oft überheblich und äußern hohe Sicherheit, selbst wenn sie falsch liegen. Dieses Papier stellt SECL vor, eine Testzeit-Trainingspipeline, die ein selbstüberwachtes Signal nutzt, um die Kalibrierung ohne gelabelte Daten oder menschliche Aufsicht zu verbessern.

Calibration self-supervision Overconfidence large language models

RESEARCHarXiv CS.AI·vor 14T

Confidence Calibration in Large Language Models

Diese Studie untersucht die Konfidenzkalibrierung großer Sprachmodelle (LLMs) bei verschiedenen Aufgaben und zeigt, dass aktuelle LLMs bei schwierigen Tests überkonfident und bei einfachen Tests unterkonfident sind. Die Forscher entwickelten LifeEval, einen neuen Test zur Bewertung der Modellkalibrierung über verschiedene Schwierigkeitsgrade hinweg.

Confidence Calibration Overconfidence machine learning large language models