LLM bias

2 items

RESEARCHarXiv CS.AI·hace 22d

Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions

Este artículo de investigación explora la desconexión entre las salidas justas de los modelos de lenguaje y sus sesgos internos latentes en decisiones de alto riesgo, como la suscripción de hipotecas. Demuestra que, aunque los LLM no muestren sesgo de salida, retienen y amplifican representaciones demográficas que pueden causar reversiones de decisión y que este sesgo es asimétrico.

LLM bias machine learning causality AI ethics

RESEARCHarXiv CS.CL·6/4/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

linguistic bias stereotyping LLM bias task-dependent bias