RESEARCH29
One hidden neuron can disable safety guards
DEV.to AI·22 mai 2026
Cette étude révèle que les couches de sécurité dans les grands modèles linguistiques peuvent être désactivées en manipulant un seul neurone caché. Cette intervention minimale fonctionne sur diverses familles et échelles de modèles, remettant en question l'hypothèse que l'alignement est robustement réparti dans le réseau.
Lire l'original ↗