← heapsort-ai

clinical decision support

3 items

RESEARCHarXiv CS.AI·hace 8d

EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs

El artículo presenta EHRBench, un benchmark automatizado y fiable basado en registros de salud electrónicos (EHR) para evaluar LLMs en la toma de decisiones clínicas, abordando la falta de comprensión sobre su fiabilidad en tareas clínicas reales. Este benchmark busca asegurar tanto la escala como la calidad en la evaluación de modelos de CDM.

28
RESEARCHarXiv CS.CL·hace 20d

Prompting language influences diagnostic reasoning and accuracy of large language models

Esta investigación evaluó el impacto del idioma de las instrucciones en el razonamiento diagnóstico y la precisión de los grandes modelos de lenguaje (LLM) en entornos clínicos. Cuatro de los cinco modelos mostraron un mejor rendimiento en inglés, subrayando la incertidumbre sobre la fiabilidad de los LLM en otros idiomas.

27