refusal steering — artículos, noticias e investigación de IA

RESEARCHarXiv CS.CL·hace 5d

Expert-Aware Refusal Steering

Este artículo extiende la dirección de rechazo a los Modelos de Lenguaje Grandes de Mezcla de Expertos (LLMs MoE), descubriendo que el rendimiento de la dirección no se ve inhibido por la arquitectura MoE. Propone métodos de dirección de rechazo conscientes de los expertos, mostrando que el comportamiento de rechazo puede ser dirigido eficazmente basándose en la salida de un solo experto.

MoE models inference refusal steering AI alignment