heapsort
RESEARCH29

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

arXiv CS.CL·21 de maio de 2026

Este artigo apresenta o MedicalBench, um novo benchmark para avaliar Large Language Models na extração de conceitos médicos de registros eletrônicos de saúde. Ele se concentra no raciocínio médico implícito e na fundamentação de evidências, superando o desafio de identificar conceitos não explicitamente declarados.

Ler original