← heapsort-ai

uncertainty

6 items

RESEARCHarXiv CS.CL·1d atrás

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Falhas no raciocínio de modelos de linguagem emergem através de processos distintos que deixam assinaturas identificáveis ao nível do token. Estas falhas são caracterizadas como "falha comprometida" ou "incerteza persistente", e a compreensão destas assinaturas ajuda a distinguir resultados falhos de bem-sucedidos em diversas configurações.

36
RESEARCHarXiv CS.AI·19d atrás

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

Esta pesquisa propõe uma nova família de métricas, $ECUAS_n$, para avaliar sistemas aumentados por incerteza (UA) em tomadas de decisão automatizadas. Argumenta-se que as abordagens de avaliação existentes são insuficientes para analisar o desempenho geral de sistemas UA, onde a incerteza preditiva é crucial para que os usuários tomem decisões informadas.

30
RESEARCHarXiv CS.CL·25d atrás

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Esta pesquisa avalia modelos de linguagem grandes (LLMs) em resposta a perguntas biomédicas, abordando sua confiabilidade diante de evidências conflitantes ou incompletas. Revela que a precisão dos LLMs cai significativamente e as previsões mudam quando a ordem de documentos corretos e contraditórios é invertida, destacando problemas com efeitos de ordem e a necessidade de abstenção consciente de conflitos.

27
RESEARCHarXiv CS.AI·8d atrás

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

Este artigo propõe uma estrutura sensível à incerteza para aprendizado por reforço em direção autônoma, utilizando conselhos de especialistas para guiar a exploração com segurança e evitar a dependência de longo prazo. A metodologia emprega gatilhos de conselho adaptativos e uma estratégia de compromisso-cooldown para regular a orientação, demonstrando desempenho superior em simulações CARLA.

27