RESEARCH29
One hidden neuron can disable safety guards
DEV.to AI·22 de mayo de 2026
Este estudio revela que las capas de seguridad en los grandes modelos de lenguaje pueden desactivarse al manipular una sola neurona oculta. Esta intervención mínima funciona en diversas familias y escalas de modelos, refutando la suposición de que la alineación está robustamente distribuida en la red.
Leer original ↗