RESEARCH27

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

arXiv CS.CL·27. Mai 2026

Dieses Papier schlägt ein neues Framework zur Bewertung und Intervention bei der kulturellen Wertausrichtung in großen Sprachmodellen (LLMs) vor, um deren oft homogenisierte kulturelle Perspektiven zu adressieren. Es nutzt szenariobasierte Verhaltenssondierung und die Extraktion impliziter Token-Wahrscheinlichkeiten, um latente kulturelle Werte zu kartieren, und führt auch die Aktivierungssteuerung ein, um diese Ausrichtungen ohne erneutes Training zu verschieben.

LLMs Cultural Alignment AI ethics Value Systems activation steering

Original lesen ↗