← heapsort-ai

Value Systems

1 items

RESEARCHarXiv CS.CL·vor 14T

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Dieses Papier schlägt ein neues Framework zur Bewertung und Intervention bei der kulturellen Wertausrichtung in großen Sprachmodellen (LLMs) vor, um deren oft homogenisierte kulturelle Perspektiven zu adressieren. Es nutzt szenariobasierte Verhaltenssondierung und die Extraktion impliziter Token-Wahrscheinlichkeiten, um latente kulturelle Werte zu kartieren, und führt auch die Aktivierungssteuerung ein, um diese Ausrichtungen ohne erneutes Training zu verschieben.

27