RESEARCH28
Can We Locate and Prevent Stereotypes in LLMs?
arXiv CS.CL·23 de abril de 2026
Este estudo investiga onde os estereótipos residem em LLMs como GPT 2 Small e Llama 3.2. Ele explora a identificação de ativações de neurônios e cabeças de atenção para mapear "impressões digitais de viés" e fornecer insights para mitigação.
Ler original ↗