RESEARCH29
Towards Understanding the Robustness of Sparse Autoencoders
arXiv CS.LG·22 avril 2026
Cette recherche explore les implications de robustesse des Sparse Autoencoders (SAEs) contre les attaques de jailbreak sur les Large Language Models (LLMs). L'intégration de SAEs pré-entraînés lors de l'inférence réduit considérablement les taux de succès des jailbreaks jusqu'à 5x et diminue la transférabilité des attaques entre diverses familles de LLMs.
Lire l'original ↗