RESEARCHarXiv CS.CL·hace 19d
MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction
Este artículo presenta MedicalBench, un nuevo benchmark para evaluar Modelos de Lenguaje Grandes en la extracción de conceptos médicos de registros de salud electrónicos. Se centra en el razonamiento médico implícito y la fundamentación de evidencia, abordando el desafío de identificar conceptos no declarados explícitamente.
29