RESEARCH29

One hidden neuron can disable safety guards

DEV.to AI·22 de mayo de 2026

Este estudio revela que las capas de seguridad en los grandes modelos de lenguaje pueden desactivarse al manipular una sola neurona oculta. Esta intervención mínima funciona en diversas familias y escalas de modelos, refutando la suposición de que la alineación está robustamente distribuida en la red.

LLM vulnerabilities security AI safety

Leer original ↗