RESEARCHarXiv CS.CL·4/23/2026
Can We Locate and Prevent Stereotypes in LLMs?
Diese Studie untersucht, wo Stereotypen in LLMs wie GPT 2 Small und Llama 3.2 lokalisiert sind. Sie erforscht die Identifizierung einzelner neuronaler Aktivierungen und Attention Heads, um „Bias-Fingerabdrücke“ zu kartieren und erste Einblicke zur Minderung zu liefern.
28