RESEARCH28

Can We Locate and Prevent Stereotypes in LLMs?

arXiv CS.CL·23 de abril de 2026

Este estudo investiga onde os estereótipos residem em LLMs como GPT 2 Small e Llama 3.2. Ele explora a identificação de ativações de neurônios e cabeças de atenção para mapear "impressões digitais de viés" e fornecer insights para mitigação.

neural networks LLMs bias detection Bias Mitigation AI ethics

Ler original ↗