safety evaluation — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.AI·27d atrás

DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models

DisaBench apresenta uma estrutura de avaliação participativa para analisar danos relacionados à deficiência em grandes modelos de linguagem, abordando a insuficiência dos benchmarks de segurança de propósito geral. Ele inclui uma taxonomia de doze categorias de dano cocriada, uma metodologia que combina prompts benignos e adversariais, e um conjunto de dados com rótulos anotados por humanos, revelando danos sutis frequentemente perdidos pelas avaliações padrão.

language models benchmarking AI ethics disability harms