RESEARCHarXiv CS.CL·23/4/2026
Can We Locate and Prevent Stereotypes in LLMs?
Este estudio investiga dónde residen los estereotipos en LLMs como GPT 2 Small y Llama 3.2. Explora la identificación de activaciones neuronales individuales y cabezas de atención para mapear "huellas de sesgo" y ofrecer conocimientos para su mitigación.
28