RESEARCH27
Cultural Value Alignment Via Latent Activation Steering in Large Language Models
arXiv CS.CL·27 de mayo de 2026
Este artículo propone un nuevo marco para evaluar e intervenir en la alineación de valores culturales en Grandes Modelos de Lenguaje (LLM), abordando la homogeneización cultural. El método utiliza sondeo conductual basado en escenarios y extracción de probabilidades implícitas de tokens para mapear valores culturales latentes, introduciendo también la dirección de activación para ajustar estas alineaciones sin reentrenamiento.
Leer original ↗