RESEARCHarXiv CS.CL·6d atrás
Expert-Aware Refusal Steering
Este artigo explora a extensão da direção de recusa para Modelos de Linguagem Grandes de Mistura de Especialistas (LLMs MoE), mostrando que o desempenho da direção não é inibido pela arquitetura MoE. Ele propõe métodos de direção conscientes do especialista, descobrindo que o comportamento de recusa pode ser efetivamente direcionado com base na saída de um único especialista.
28