One hidden neuron can disable safety guards
Cette étude révèle que les couches de sécurité dans les grands modèles linguistiques peuvent être désactivées en manipulant un seul neurone caché. Cette intervention minimale fonctionne sur diverses familles et échelles de modèles, remettant en question l'hypothèse que l'alignement est robustement réparti dans le réseau.