← heapsort-ai

LLM bias

2 items

RESEARCHarXiv CS.AI·il y a 22j

Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions

Cet article de recherche explore la déconnexion entre les résultats équitables des modèles linguistiques et leurs biais internes latents dans les décisions à enjeux élevés comme la souscription de prêts hypothécaires. Il démontre que, bien que les LLM puissent ne pas présenter de biais de sortie, ils retiennent et amplifient les représentations démographiques qui peuvent provoquer des inversions de décision, et ce biais est asimétrique.

29
RESEARCHarXiv CS.CL·06/04/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

27