RESEARCH27
A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models
arXiv CS.CL·2 juin 2026
Un nouveau cadre de "red teaming" multi-domaine a été développé pour évaluer la sécurité, la robustesse et l'équité des grands modèles linguistiques (LLM) médicaux sur 690 scénarios cliniques. La recherche a révélé une variance de performance substantielle et des défaillances critiques dans des scénarios de sécurité, même pour les systèmes très performants.
Lire l'original ↗