confidence estimation

2 items

RESEARCHarXiv CS.CL·4/5/2026

Confidence Estimation in Automatic Short Answer Grading with LLMs

Este trabajo investiga la estimación de confianza en la Calificación Automática de Respuestas Cortas (ASAG) con Grandes Modelos de Lenguaje (LLMs), esencial para la colaboración humano-IA en educación. Compara estrategias de estimación de confianza basadas en modelos y propone un marco híbrido para abordar sus limitaciones.

education LLMs AI grading human-AI interaction

RESEARCHarXiv CS.CL·hace 20d

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Este artículo introduce el Stepwise Confidence Attribution (SCA), un marco para LLMs de caja negra que diagnostica fallas en el razonamiento multi-paso asignando confianza a nivel de paso. SCA aplica el principio de Information Bottleneck, marcando las desviaciones de las estructuras de consenso como errores potenciales, y propone dos métodos complementarios: NIBS y GIBS.

LLMs information bottleneck Reasoning confidence estimation