RESEARCH29
One hidden neuron can disable safety guards
DEV.to AI·22 de maio de 2026
Este estudo revela que a segurança em grandes modelos de linguagem pode ser desativada ao manipular um único neurônio oculto. Essa intervenção mínima funciona em várias famílias e escalas de modelos, desafiando a suposição de que o alinhamento é robustamente distribuído na rede.
Ler original ↗