RESEARCHarXiv CS.AI·27d atrás
DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models
DisaBench apresenta uma estrutura de avaliação participativa para analisar danos relacionados à deficiência em grandes modelos de linguagem, abordando a insuficiência dos benchmarks de segurança de propósito geral. Ele inclui uma taxonomia de doze categorias de dano cocriada, uma metodologia que combina prompts benignos e adversariais, e um conjunto de dados com rótulos anotados por humanos, revelando danos sutis frequentemente perdidos pelas avaliações padrão.
27