RESEARCH27

A Representation-Level Assessment of Bias Mitigation in Foundation Models

arXiv CS.CL·13 de abril de 2026

Esta investigación examina cómo la mitigación de sesgos remodela el espacio de incrustación de modelos de fundación, como BERT y Llama2. Los hallazgos muestran que la mitigación de sesgos reduce las disparidades de género-ocupación en el espacio de incrustación, llevando a representaciones internas más neutrales y validando el análisis de incrustación como una herramienta útil para métodos de desvío.

BERT Bias Mitigation Foundation Models representational analysis embedding space

Leer original ↗