RESEARCH28

Can We Locate and Prevent Stereotypes in LLMs?

arXiv CS.CL·23 de abril de 2026

Este estudio investiga dónde residen los estereotipos en LLMs como GPT 2 Small y Llama 3.2. Explora la identificación de activaciones neuronales individuales y cabezas de atención para mapear "huellas de sesgo" y ofrecer conocimientos para su mitigación.

neural networks LLMs bias detection Bias Mitigation AI ethics

Leer original ↗