← heapsort-ai

disability harms

1 items

RESEARCHarXiv CS.AI·il y a 27j

DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models

DisaBench présente un cadre d'évaluation participatif pour évaluer les préjudices liés au handicap dans les grands modèles linguistiques, comblant les lacunes des benchmarks de sécurité généraux. Il comprend une taxonomie de douze catégories de préjudices cocréée, une méthodologie associant des invites bénignes et adverses, et un ensemble de données avec des étiquettes annotées par des humains, révélant des préjudices subtils souvent manqués par les évaluations standards.

27