RESEARCHarXiv CS.CL·14d atrás
Cultural Value Alignment Via Latent Activation Steering in Large Language Models
Este artigo propõe uma nova estrutura para avaliar e intervir no alinhamento de valores culturais em Grandes Modelos de Linguagem (LLMs), abordando a homogeneização cultural. O método utiliza sondagem comportamental baseada em cenários e extração de probabilidades implícitas de tokens para mapear valores latentes, introduzindo também a direção de ativação para ajustar esses alinhamentos sem retreinamento.
27