RESEARCH31
Expert-Aware Refusal Steering
arXiv CS.CL·4 de junio de 2026
Este artículo extiende la dirección de rechazo a los Modelos de Lenguaje Grandes de Mezcla de Expertos (LLMs MoE), descubriendo que el rendimiento de la dirección no se ve inhibido por la arquitectura MoE. Propone métodos de dirección de rechazo conscientes de los expertos, mostrando que el comportamiento de rechazo puede ser dirigido eficazmente basándose en la salida de un solo experto.
Leer original ↗