RESEARCH27

How Does Differential Privacy Affect Social Bias in LLMs? A Systematic Evaluation

arXiv CS.CL·13 de mayo de 2026

Esta investigación evalúa sistemáticamente la relación entre la privacidad diferencial (DP) y el sesgo social en grandes modelos de lenguaje (LLM). Compara un LLM entrenado con DP con líneas base sin DP en varias tareas, encontrando que la DP reduce el sesgo en tareas de puntuación de oraciones, pero no de forma universal, y revela una discrepancia entre el sesgo a nivel de logit y a nivel de salida.

LLMs security AI ethics Bias

Leer original ↗