RESEARCH27

Prompting language influences diagnostic reasoning and accuracy of large language models

arXiv CS.CL·May 20, 2026

This research evaluated the impact of prompting language on the diagnostic reasoning and accuracy of large language models (LLMs) in clinical settings. Four out of five models performed better in English, highlighting the uncertainty regarding LLM reliability across different languages.

Multilingual AI LLMs clinical decision support Diagnostic Accuracy medical AI

Read original ↗