RESEARCH27

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

arXiv CS.CL·5. Mai 2026

Das CLEAR-Framework wird eingeführt, um zu bewerten, wie Ambiguität und Unsicherheit die Zuverlässigkeit medizinischer großer Sprachmodelle (LLMs) beeinflussen, jenseits vereinfachter Bewertungs-Benchmarks. Es variiert systematisch Antwortoptionen und deren semantische Formulierung, was zeigt, dass eine erhöhte Anzahl plausibler Antworten die LLM-Leistung beeinträchtigt und die Vorsicht bei unsicherer Abstinenzformulierung abnimmt.

Ambiguity LLMs evaluation Reliability medical AI

Original lesen ↗