← heapsort-ai

LLM vulnerabilities

3 items

RESEARCHDEV.to AI·il y a 19j

One hidden neuron can disable safety guards

Cette étude révèle que les couches de sécurité dans les grands modèles linguistiques peuvent être désactivées en manipulant un seul neurone caché. Cette intervention minimale fonctionne sur diverses familles et échelles de modèles, remettant en question l'hypothèse que l'alignement est robustement réparti dans le réseau.

29