Moral Reasoning

2 items

RESEARCHarXiv CS.AI·4/9/2026

Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules

Este estudo documenta o fenômeno da 'recusa cega' em modelos de linguagem, onde eles se recusam a ajudar usuários a contornar regras, mesmo que estas sejam injustas ou ilegítimas, o que é visto como uma falha de raciocínio moral. A pesquisa apresenta resultados empíricos baseados em um conjunto de dados sintético que cruza famílias de razões para quebrar regras com tipos de autoridade, analisando o comportamento de 18 configurações de modelos.

Rule Following language models AI ethics Safety Training

RESEARCHarXiv CS.CL·4/15/2026

Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models

Diese Forschung untersucht systematisch den Identifizierbare-Opfer-Effekt (IVE) in Großen Sprachmodellen, eine kognitive Verzerrung, bei der spezifische, narrativ beschriebene Opfer mehr Ressourcen erhalten als statistisch charakterisierte Gruppen. Die groß angelegte empirische Studie über 16 führende LLMs stellt fest, ob diese Systeme menschliche affektive Irrationalitäten in kritischen Anwendungen wie humanitärem Triage und Inhaltsmoderation erben.

Identifiable Victim Effect cognitive bias AI ethics large language models