RESEARCH28
Can We Locate and Prevent Stereotypes in LLMs?
arXiv CS.CL·23 de abril de 2026
Este estudio investiga dónde residen los estereotipos en LLMs como GPT 2 Small y Llama 3.2. Explora la identificación de activaciones neuronales individuales y cabezas de atención para mapear "huellas de sesgo" y ofrecer conocimientos para su mitigación.
Leer original ↗