RESEARCH29

Towards Understanding the Robustness of Sparse Autoencoders

arXiv CS.LG·22 de abril de 2026

Esta investigación explora las implicaciones de robustez de los Autoencoders Escasos (SAEs) contra ataques de jailbreak en Large Language Models (LLMs). La integración de SAEs preentrenados durante la inferencia reduce significativamente las tasas de éxito de jailbreak hasta 5 veces y disminuye la transferibilidad de ataques entre diferentes familias de LLMs.

LLMs security machine learning

Leer original ↗