heapsort
RESEARCH27

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

arXiv CS.CL·15. April 2026

Diese Forschung stellt den "Filtered Reasoning Score" vor, eine neuartige Metrik zur Bewertung der Denkqualität in KI-Modellen. Sie konzentriert sich speziell auf die Bewertung des Denkvermögens, das in den selbstsichersten Ausgaben oder "Traces" eines Modells sichtbar ist.

Original lesen