refusal steering — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·6d atrás

Expert-Aware Refusal Steering

Este artigo explora a extensão da direção de recusa para Modelos de Linguagem Grandes de Mistura de Especialistas (LLMs MoE), mostrando que o desempenho da direção não é inibido pela arquitetura MoE. Ele propõe métodos de direção conscientes do especialista, descobrindo que o comportamento de recusa pode ser efetivamente direcionado com base na saída de um único especialista.

MoE models inference refusal steering AI alignment