RESEARCH29

One hidden neuron can disable safety guards

DEV.to AI·22 mai 2026

Cette étude révèle que les couches de sécurité dans les grands modèles linguistiques peuvent être désactivées en manipulant un seul neurone caché. Cette intervention minimale fonctionne sur diverses familles et échelles de modèles, remettant en question l'hypothèse que l'alignement est robustement réparti dans le réseau.

LLM vulnerabilities security AI safety

Lire l'original ↗