RESEARCH29
Towards Understanding the Robustness of Sparse Autoencoders
arXiv CS.LG·22 de abril de 2026
Esta investigación explora las implicaciones de robustez de los Autoencoders Escasos (SAEs) contra ataques de jailbreak en Large Language Models (LLMs). La integración de SAEs preentrenados durante la inferencia reduce significativamente las tasas de éxito de jailbreak hasta 5 veces y disminuye la transferibilidad de ataques entre diferentes familias de LLMs.
Leer original ↗