RESEARCH28

Expert-Aware Refusal Steering

arXiv CS.CL·4 de junho de 2026

Este artigo explora a extensão da direção de recusa para Modelos de Linguagem Grandes de Mistura de Especialistas (LLMs MoE), mostrando que o desempenho da direção não é inibido pela arquitetura MoE. Ele propõe métodos de direção conscientes do especialista, descobrindo que o comportamento de recusa pode ser efetivamente direcionado com base na saída de um único especialista.

MoE models inference refusal steering AI alignment LLM safety

Ler original ↗