heapsort
RESEARCH29

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

arXiv CS.CL·21 de mayo de 2026

Este artículo presenta MedicalBench, un nuevo benchmark para evaluar Modelos de Lenguaje Grandes en la extracción de conceptos médicos de registros de salud electrónicos. Se centra en el razonamiento médico implícito y la fundamentación de evidencia, abordando el desafío de identificar conceptos no declarados explícitamente.

Leer original