RESEARCHarXiv CS.CL·23/04/2026
Can We Locate and Prevent Stereotypes in LLMs?
Cette étude examine où résident les stéréotypes dans les LLM tels que GPT 2 Small et Llama 3.2. Elle explore l'identification des activations neuronales individuelles et des têtes d'attention pour cartographier les "empreintes de biais" et fournir des pistes pour leur atténuation.
28