heapsort
RESEARCH31

Expert-Aware Refusal Steering

arXiv CS.CL·4. Juni 2026

Diese Arbeit erweitert die Verweigerungslenkung auf Mixture-of-Experts (MoE) große Sprachmodelle und stellt fest, dass die Lenkleistung durch die MoE-Architektur nicht beeinträchtigt wird. Sie schlägt expertenbewusste Verweigerungslenkungsmethoden vor, die Routing-Muster von Experten nutzen und zeigt, dass das Verweigerungsverhalten effektiv basierend auf der Ausgabe eines einzelnen Experten gesteuert werden kann.

Original lesen