← heapsort-ai

LLM bias

2 items

RESEARCHarXiv CS.AI·23d ago

Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions

This research paper explores the disconnect between fair outputs of language models and their latent internal biases in high-stakes decisions like mortgage underwriting. It demonstrates that while LLMs may show no output bias, they retain and amplify demographic representations which can cause decision reversals, and this bias is asymmetric.

29
RESEARCHarXiv CS.CL·4/6/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

27