Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions
Este artículo de investigación explora la desconexión entre las salidas justas de los modelos de lenguaje y sus sesgos internos latentes en decisiones de alto riesgo, como la suscripción de hipotecas. Demuestra que, aunque los LLM no muestren sesgo de salida, retienen y amplifican representaciones demográficas que pueden causar reversiones de decisión y que este sesgo es asimétrico.