RESEARCH28
Can We Locate and Prevent Stereotypes in LLMs?
arXiv CS.CL·23 avril 2026
Cette étude examine où résident les stéréotypes dans les LLM tels que GPT 2 Small et Llama 3.2. Elle explore l'identification des activations neuronales individuelles et des têtes d'attention pour cartographier les "empreintes de biais" et fournir des pistes pour leur atténuation.
Lire l'original ↗