← heapsort-ai

Value Systems

1 items

RESEARCHarXiv CS.CL·14d atrás

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Este artigo propõe uma nova estrutura para avaliar e intervir no alinhamento de valores culturais em Grandes Modelos de Linguagem (LLMs), abordando a homogeneização cultural. O método utiliza sondagem comportamental baseada em cenários e extração de probabilidades implícitas de tokens para mapear valores latentes, introduzindo também a direção de ativação para ajustar esses alinhamentos sem retreinamento.

27