RESEARCH27

When Should a Language Model Trust Itself? Same-Model Self-Verification as a Conditional Confidence Signal

arXiv CS.CL·6. Mai 2026

Diese Forschung bewertet die Selbstverifikation desselben Modells als Vertrauenssignal für die selektive Vorhersage und vergleicht sie mit Wahrscheinlichkeits-basierten Baselines. Die Studie zeigt aufgaben- und modellabhängige Ergebnisse, mit erheblichen Verbesserungen für einige Modelle bei ARC-Challenge, aber geringerer Zuverlässigkeit und gelegentlicher Verschlechterung bei TruthfulQA-MC.

language models AI Confidence Selective Prediction machine learning Self-Verification

Original lesen ↗