RESEARCH27
A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models
arXiv CS.CL·2 de junio de 2026
Se desarrolló un nuevo marco de red teaming multidominio para evaluar la seguridad, robustez y equidad de los Grandes Modelos de Lenguaje (LLMs) médicos en 690 escenarios clínicos. La investigación reveló una varianza de rendimiento sustancial y fallas críticas en escenarios de seguridad, incluso en sistemas de alto rendimiento.
Leer original ↗