RESEARCH29

Towards Understanding the Robustness of Sparse Autoencoders

arXiv CS.LG·22 de abril de 2026

Esta pesquisa explora as implicações de robustez dos Sparse Autoencoders (SAEs) contra ataques de jailbreak em Large Language Models (LLMs). A integração de SAEs pré-treinados durante a inferência reduz significativamente as taxas de sucesso de jailbreak em até 5x e diminui a transferibilidade de ataques entre diferentes famílias de LLMs.

LLMs security machine learning

Ler original ↗