RESEARCH27

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

arXiv CS.CL·5 de mayo de 2026

Se introduce el framework CLEAR para evaluar cómo la ambigüedad y la incerteza afectan la fiabilidad de los Modelos de Lenguaje Grandes (LLMs) médicos, yendo más allá de los benchmarks simplificados. Perturba sistemáticamente las opciones de respuesta y su encuadre semántico, revelando que el aumento de respuestas plausibles degrada el rendimiento de los LLMs y la precaución disminuye con un fraseo incierto de abstención.

Ambiguity LLMs evaluation Reliability medical AI

Leer original ↗