RESEARCH28

Can We Locate and Prevent Stereotypes in LLMs?

arXiv CS.CL·23. April 2026

Diese Studie untersucht, wo Stereotypen in LLMs wie GPT 2 Small und Llama 3.2 lokalisiert sind. Sie erforscht die Identifizierung einzelner neuronaler Aktivierungen und Attention Heads, um „Bias-Fingerabdrücke“ zu kartieren und erste Einblicke zur Minderung zu liefern.

neural networks LLMs bias detection Bias Mitigation AI ethics

Original lesen ↗