activation steering

2 items

RESEARCHarXiv CS.CL·il y a 9j

Cross-Lingual Steering for Figurative Language Generation

Cette recherche examine si les signaux internes pilotant la génération de langage figuré dans les grands modèles de langage multilingues sont spécifiques à la langue ou réutilisables. L'étude a montré que les directions des catégories figuratives se transfèrent robustement entre les langues, indiquant une composante partagée pour cette capacité.

figurative language multilingual LLMs language generation cross-lingual transfer

RESEARCHarXiv CS.CL·il y a 14j

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Cet article propose un nouveau cadre pour évaluer et intervenir sur l'alignement des valeurs culturelles dans les Grands Modèles Linguistiques (LLM), abordant l'homogénéisation culturelle. La méthode utilise un sondage comportemental basé sur des scénarios et l'extraction de probabilités de jetons implicites pour cartographier les valeurs latentes, introduisant également le pilotage d'activation pour ajuster ces alignements sans réentraînement.

LLMs Cultural Alignment AI ethics Value Systems