RESEARCH29

One hidden neuron can disable safety guards

DEV.to AI·22 de maio de 2026

Este estudo revela que a segurança em grandes modelos de linguagem pode ser desativada ao manipular um único neurônio oculto. Essa intervenção mínima funciona em várias famílias e escalas de modelos, desafiando a suposição de que o alinhamento é robustamente distribuído na rede.

LLM vulnerabilities security AI safety

Ler original ↗