activation steering

2 items

RESEARCHarXiv CS.CL·vor 9T

Cross-Lingual Steering for Figurative Language Generation

Diese Forschung untersucht, ob interne Signale, die die Erzeugung figurativer Sprache in mehrsprachigen großen Sprachmodellen steuern, sprachspezifisch oder über Sprachen hinweg wiederverwendbar sind. Die Studie zeigte, dass Richtungen für figurative Kategorien innerhalb ihrer eigenen Sprache zuverlässig steuern und sich vor allem robust über Sprachen hinweg übertragen lassen, was auf eine gemeinsame Komponente für diese Fähigkeit hindeutet.

figurative language multilingual LLMs language generation cross-lingual transfer

RESEARCHarXiv CS.CL·vor 14T

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Dieses Papier schlägt ein neues Framework zur Bewertung und Intervention bei der kulturellen Wertausrichtung in großen Sprachmodellen (LLMs) vor, um deren oft homogenisierte kulturelle Perspektiven zu adressieren. Es nutzt szenariobasierte Verhaltenssondierung und die Extraktion impliziter Token-Wahrscheinlichkeiten, um latente kulturelle Werte zu kartieren, und führt auch die Aktivierungssteuerung ein, um diese Ausrichtungen ohne erneutes Training zu verschieben.

LLMs Cultural Alignment AI ethics Value Systems