RESEARCH27

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

arXiv CS.CL·5 mai 2026

Le framework CLEAR est introduit pour évaluer comment l'ambiguïté et l'incertitude affectent la fiabilité des grands modèles linguistiques (LLM) médicaux, au-delà des benchmarks simplifiés. Il perturbe systématiquement les options de réponse et leur cadrage sémantique, révélant qu'un nombre accru de réponses plausibles dégrade les performances des LLM et que la prudence diminue avec un libellé d'abstention incertain.

Ambiguity LLMs evaluation Reliability medical AI

Lire l'original ↗