RESEARCH27

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

arXiv CS.CL·15 de maio de 2026

Esta pesquisa avalia modelos de linguagem grandes (LLMs) em resposta a perguntas biomédicas, abordando sua confiabilidade diante de evidências conflitantes ou incompletas. Revela que a precisão dos LLMs cai significativamente e as previsões mudam quando a ordem de documentos corretos e contraditórios é invertida, destacando problemas com efeitos de ordem e a necessidade de abstenção consciente de conflitos.

LLMs evaluation Reliability Biomedical AI uncertainty

Ler original ↗