RESEARCH27
Cultural Value Alignment Via Latent Activation Steering in Large Language Models
arXiv CS.CL·27. Mai 2026
Dieses Papier schlägt ein neues Framework zur Bewertung und Intervention bei der kulturellen Wertausrichtung in großen Sprachmodellen (LLMs) vor, um deren oft homogenisierte kulturelle Perspektiven zu adressieren. Es nutzt szenariobasierte Verhaltenssondierung und die Extraktion impliziter Token-Wahrscheinlichkeiten, um latente kulturelle Werte zu kartieren, und führt auch die Aktivierungssteuerung ein, um diese Ausrichtungen ohne erneutes Training zu verschieben.
Original lesen ↗