RESEARCH29
Towards Understanding the Robustness of Sparse Autoencoders
arXiv CS.LG·22 de abril de 2026
Esta pesquisa explora as implicações de robustez dos Sparse Autoencoders (SAEs) contra ataques de jailbreak em Large Language Models (LLMs). A integração de SAEs pré-treinados durante a inferência reduz significativamente as taxas de sucesso de jailbreak em até 5x e diminui a transferibilidade de ataques entre diferentes famílias de LLMs.
Ler original ↗