← heapsort-ai

LLM vulnerabilities

3 items

RESEARCHDEV.to AI·hace 18d

One hidden neuron can disable safety guards

Este estudio revela que las capas de seguridad en los grandes modelos de lenguaje pueden desactivarse al manipular una sola neurona oculta. Esta intervención mínima funciona en diversas familias y escalas de modelos, refutando la suposición de que la alineación está robustamente distribuida en la red.

29