heapsort
RESEARCH27

A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models

arXiv CS.CL·2. Juni 2026

Ein neues Multi-Domain-Red-Teaming-Framework wurde entwickelt, um die Sicherheit, Robustheit und Fairness medizinischer großer Sprachmodelle (LLMs) in 690 klinisch fundierten Szenarien zu bewerten. Die Studie zeigte erhebliche Leistungsschwankungen und kritische Ausfälle in sicherheitsrelevanten Szenarien, selbst bei hochleistenden Systemen.

Original lesen