safety evaluation — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.AI·vor 27T

DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models

DisaBench stellt ein partizipatives Bewertungsrahmenwerk vor, um behinderungsbezogene Schäden in großen Sprachmodellen zu bewerten und die Unzulänglichkeit allgemeiner Sicherheits-Benchmarks zu adressieren. Es umfasst eine gemeinsam entwickelte Taxonomie von zwölf Schadenskategorien, eine Methodik, die gutartige und gegnerische Prompts paart, sowie einen Datensatz mit menschlich annotierten Labels, der subtile Schäden aufzeigt, die von Standardbewertungen oft übersehen werden.

language models benchmarking AI ethics disability harms