← heapsort-ai

LLM bias

2 items

RESEARCHarXiv CS.AI·22d atrás

Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions

Este artigo de pesquisa explora a desconexão entre a produção justa de modelos de linguagem e seus vieses internos latentes em decisões de alto risco, como subscrição de hipotecas. Demonstra que, embora os LLMs possam não mostrar viés de saída, eles retêm e amplificam representações demográficas que podem causar reversões de decisão e que este viés é assimétrico.

29
RESEARCHarXiv CS.CL·06/04/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

27