confidence estimation

2 items

RESEARCHarXiv CS.CL·5/4/2026

Confidence Estimation in Automatic Short Answer Grading with LLMs

Diese Arbeit untersucht die Vertrauensschätzung bei der automatischen Bewertung kurzer Antworten (ASAG) mit großen Sprachmodellen (LLMs), was für die Mensch-KI-Zusammenarbeit in der Bildung unerlässlich ist. Sie vergleicht modellbasierte Vertrauensschätzungsstrategien und schlägt ein hybrides Framework vor, um deren Einschränkungen zu beheben.

education LLMs AI grading human-AI interaction

RESEARCHarXiv CS.CL·vor 21T

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Dieses Papier stellt Stepwise Confidence Attribution (SCA) vor, ein Framework für Black-Box-LLMs, das mehrstufige Schlussfolgerungsfehler durch schrittweise Konfidenzzuordnung diagnostiziert. SCA wendet das Information Bottleneck-Prinzip an, kennzeichnet Abweichungen von Konsensstrukturen als potenzielle Fehler und schlägt zwei komplementäre Methoden vor: NIBS und GIBS.

LLMs information bottleneck Reasoning confidence estimation