Moral Reasoning

2 items

RESEARCHarXiv CS.AI·09/04/2026

Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules

Este estudo documenta o fenômeno da 'recusa cega' em modelos de linguagem, onde eles se recusam a ajudar usuários a contornar regras, mesmo que estas sejam injustas ou ilegítimas, o que é visto como uma falha de raciocínio moral. A pesquisa apresenta resultados empíricos baseados em um conjunto de dados sintético que cruza famílias de razões para quebrar regras com tipos de autoridade, analisando o comportamento de 18 configurações de modelos.

Rule Following language models AI ethics Safety Training

RESEARCHarXiv CS.CL·15/04/2026

Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models

Esta pesquisa investiga sistematicamente o Efeito da Vítima Identificável (EVI) em Grandes Modelos de Linguagem, um viés cognitivo onde vítimas narrativamente descritas recebem mais recursos do que grupos estatísticos. O estudo empírico em larga escala avalia se esses sistemas herdam irracionalidades afetivas humanas em aplicações críticas como triagem humanitária e moderação de conteúdo.

Identifiable Victim Effect cognitive bias AI ethics large language models