RESEARCH31

Expert-Aware Refusal Steering

arXiv CS.CL·4 de junio de 2026

Este artículo extiende la dirección de rechazo a los Modelos de Lenguaje Grandes de Mezcla de Expertos (LLMs MoE), descubriendo que el rendimiento de la dirección no se ve inhibido por la arquitectura MoE. Propone métodos de dirección de rechazo conscientes de los expertos, mostrando que el comportamiento de rechazo puede ser dirigido eficazmente basándose en la salida de un solo experto.

MoE models inference refusal steering AI alignment LLM safety

Leer original ↗