← heapsort-ai

LLM bias

2 items

RESEARCHarXiv CS.AI·vor 22T

Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions

Diese Forschungsarbeit untersucht die Diskrepanz zwischen fairen Ausgaben von Sprachmodellen und ihren latenten internen Verzerrungen bei wichtigen Entscheidungen wie der Hypothekenbewertung. Es zeigt, dass LLMs zwar keine Ausgabenvoreingenommenheit aufweisen, jedoch demografische Darstellungen beibehalten und verstärken können, die zu Entscheidungsänderungen führen können, und diese Voreingenommenheit asymmetrisch ist.

29
RESEARCHarXiv CS.CL·4/6/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

27