One hidden neuron can disable safety guards
Diese Studie zeigt, dass Sicherheitsvorkehrungen in großen Sprachmodellen durch das Kippen eines einzelnen verborgenen Neurons deaktiviert werden können. Diese minimale Intervention funktioniert über verschiedene Modellfamilien und -größen hinweg und widerlegt die Annahme, dass die Ausrichtung robust im gesamten Netzwerk verteilt ist.