RESEARCH28

Can We Locate and Prevent Stereotypes in LLMs?

arXiv CS.CL·23 avril 2026

Cette étude examine où résident les stéréotypes dans les LLM tels que GPT 2 Small et Llama 3.2. Elle explore l'identification des activations neuronales individuelles et des têtes d'attention pour cartographier les "empreintes de biais" et fournir des pistes pour leur atténuation.

neural networks LLMs bias detection Bias Mitigation AI ethics

Lire l'original ↗