RESEARCH27

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

arXiv CS.CL·27 de mayo de 2026

Este artículo propone un nuevo marco para evaluar e intervenir en la alineación de valores culturales en Grandes Modelos de Lenguaje (LLM), abordando la homogeneización cultural. El método utiliza sondeo conductual basado en escenarios y extracción de probabilidades implícitas de tokens para mapear valores culturales latentes, introduciendo también la dirección de activación para ajustar estas alineaciones sin reentrenamiento.

LLMs Cultural Alignment AI ethics Value Systems activation steering

Leer original ↗