RESEARCH27

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

arXiv CS.CL·15 de mayo de 2026

Esta investigación evalúa modelos de lenguaje grandes (LLMs) en la respuesta a preguntas biomédicas, abordando su fiabilidad cuando se enfrentan a evidencia conflictiva o incompleta. Revela que la precisión de los LLMs disminuye significativamente y las predicciones cambian cuando se invierte el orden de los documentos correctos y contradictorios, destacando problemas con los efectos de orden y la necesidad de abstención consciente del conflicto.

LLMs evaluation Reliability Biomedical AI uncertainty

Leer original ↗