RESEARCHarXiv CS.CL·il y a 5j
Expert-Aware Refusal Steering
Cet article étend la direction de refus aux grands modèles de langage Mixture-of-Experts (MoE), constatant que la performance de direction n'est pas inhibée par l'architecture MoE. Il propose des méthodes de direction de refus conscientes des experts, montrant que le comportement de refus peut être efficacement dirigé en se basant sur la sortie d'un seul expert.
31