heapsort
RESEARCH29

One hidden neuron can disable safety guards

DEV.to AI·22. Mai 2026

Diese Studie zeigt, dass Sicherheitsvorkehrungen in großen Sprachmodellen durch das Kippen eines einzelnen verborgenen Neurons deaktiviert werden können. Diese minimale Intervention funktioniert über verschiedene Modellfamilien und -größen hinweg und widerlegt die Annahme, dass die Ausrichtung robust im gesamten Netzwerk verteilt ist.

Original lesen