RESEARCHarXiv CS.CL·23/04/2026
Can We Locate and Prevent Stereotypes in LLMs?
Este estudo investiga onde os estereótipos residem em LLMs como GPT 2 Small e Llama 3.2. Ele explora a identificação de ativações de neurônios e cabeças de atenção para mapear "impressões digitais de viés" e fornecer insights para mitigação.
28