← heapsort-ai

LLM vulnerabilities

3 items

RESEARCHDEV.to AI·18d atrás

One hidden neuron can disable safety guards

Este estudo revela que a segurança em grandes modelos de linguagem pode ser desativada ao manipular um único neurônio oculto. Essa intervenção mínima funciona em várias famílias e escalas de modelos, desafiando a suposição de que o alinhamento é robustamente distribuído na rede.

29