← heapsort-ai

uncertainty

6 items

RESEARCHarXiv CS.CL·hace 1d

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Las fallas en el razonamiento de los modelos de lenguaje surgen a través de procesos distintos que dejan firmas identificables a nivel de token. Estas fallas se caracterizan como "falla comprometida" o "incertidumbre persistente", y comprender estas firmas ayuda a distinguir los resultados fallidos de los exitosos en varias configuraciones.

36
RESEARCHarXiv CS.AI·hace 19d

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

Esta investigación propone una nueva familia de métricas, $ECUAS_n$, para evaluar sistemas aumentados por incertidumbre (UA) en la toma de decisiones automatizada. Argumenta que los enfoques de evaluación existentes son insuficientes para valorar el rendimiento general de los sistemas UA, donde la incertidumbre predictiva es crucial para que los usuarios tomen decisiones informadas.

30
RESEARCHarXiv CS.CL·hace 25d

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Esta investigación evalúa modelos de lenguaje grandes (LLMs) en la respuesta a preguntas biomédicas, abordando su fiabilidad cuando se enfrentan a evidencia conflictiva o incompleta. Revela que la precisión de los LLMs disminuye significativamente y las predicciones cambian cuando se invierte el orden de los documentos correctos y contradictorios, destacando problemas con los efectos de orden y la necesidad de abstención consciente del conflicto.

27
RESEARCHarXiv CS.AI·hace 8d

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Este trabajo presenta un marco consciente de la incertidumbre para el aprendizaje por refuerzo en la conducción autónoma, utilizando el asesoramiento de expertos para guiar la exploración de forma segura y evitar la dependencia a largo plazo. Emplea umbrales adaptativos para la activación del asesoramiento y una estrategia de compromiso-enfriamiento para regular la orientación, mostrando un rendimiento mejorado en simulaciones CARLA.

27