EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs
El artículo presenta EHRBench, un benchmark automatizado y fiable basado en registros de salud electrónicos (EHR) para evaluar LLMs en la toma de decisiones clínicas, abordando la falta de comprensión sobre su fiabilidad en tareas clínicas reales. Este benchmark busca asegurar tanto la escala como la calidad en la evaluación de modelos de CDM.