RESEARCH28
Can We Locate and Prevent Stereotypes in LLMs?
arXiv CS.CL·23. April 2026
Diese Studie untersucht, wo Stereotypen in LLMs wie GPT 2 Small und Llama 3.2 lokalisiert sind. Sie erforscht die Identifizierung einzelner neuronaler Aktivierungen und Attention Heads, um „Bias-Fingerabdrücke“ zu kartieren und erste Einblicke zur Minderung zu liefern.
Original lesen ↗