RESEARCH27
When Should a Language Model Trust Itself? Same-Model Self-Verification as a Conditional Confidence Signal
arXiv CS.CL·6. Mai 2026
Diese Forschung bewertet die Selbstverifikation desselben Modells als Vertrauenssignal für die selektive Vorhersage und vergleicht sie mit Wahrscheinlichkeits-basierten Baselines. Die Studie zeigt aufgaben- und modellabhängige Ergebnisse, mit erheblichen Verbesserungen für einige Modelle bei ARC-Challenge, aber geringerer Zuverlässigkeit und gelegentlicher Verschlechterung bei TruthfulQA-MC.
Original lesen ↗