RESEARCH27
DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models
arXiv CS.AI·14 mai 2026
DisaBench présente un cadre d'évaluation participatif pour évaluer les préjudices liés au handicap dans les grands modèles linguistiques, comblant les lacunes des benchmarks de sécurité généraux. Il comprend une taxonomie de douze catégories de préjudices cocréée, une méthodologie associant des invites bénignes et adverses, et un ensemble de données avec des étiquettes annotées par des humains, révélant des préjudices subtils souvent manqués par les évaluations standards.
Lire l'original ↗