activation steering

2 items

RESEARCHarXiv CS.CL·hace 9d

Cross-Lingual Steering for Figurative Language Generation

Esta investigación explora si las señales internas que impulsan la generación de lenguaje figurado en grandes modelos de lenguaje multilingües son específicas del idioma o reutilizables. El estudio demostró que las direcciones de categorías figuradas se transfieren de manera robusta entre idiomas, lo que sugiere un componente compartido para esta capacidad.

figurative language multilingual LLMs language generation cross-lingual transfer

RESEARCHarXiv CS.CL·hace 14d

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Este artículo propone un nuevo marco para evaluar e intervenir en la alineación de valores culturales en Grandes Modelos de Lenguaje (LLM), abordando la homogeneización cultural. El método utiliza sondeo conductual basado en escenarios y extracción de probabilidades implícitas de tokens para mapear valores culturales latentes, introduciendo también la dirección de activación para ajustar estas alineaciones sin reentrenamiento.

LLMs Cultural Alignment AI ethics Value Systems