RESEARCH27

DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models

arXiv CS.AI·14 mai 2026

DisaBench présente un cadre d'évaluation participatif pour évaluer les préjudices liés au handicap dans les grands modèles linguistiques, comblant les lacunes des benchmarks de sécurité généraux. Il comprend une taxonomie de douze catégories de préjudices cocréée, une méthodologie associant des invites bénignes et adverses, et un ensemble de données avec des étiquettes annotées par des humains, révélant des préjudices subtils souvent manqués par les évaluations standards.

language models Benchmarking AI ethics disability harms safety evaluation

Lire l'original ↗