RESEARCHarXiv CS.CL·13/4/2026
A Representation-Level Assessment of Bias Mitigation in Foundation Models
Esta investigación examina cómo la mitigación de sesgos remodela el espacio de incrustación de modelos de fundación, como BERT y Llama2. Los hallazgos muestran que la mitigación de sesgos reduce las disparidades de género-ocupación en el espacio de incrustación, llevando a representaciones internas más neutrales y validando el análisis de incrustación como una herramienta útil para métodos de desvío.
27