RESEARCH29

Towards Understanding the Robustness of Sparse Autoencoders

arXiv CS.LG·22 avril 2026

Cette recherche explore les implications de robustesse des Sparse Autoencoders (SAEs) contre les attaques de jailbreak sur les Large Language Models (LLMs). L'intégration de SAEs pré-entraînés lors de l'inférence réduit considérablement les taux de succès des jailbreaks jusqu'à 5x et diminue la transférabilité des attaques entre diverses familles de LLMs.

LLMs security machine learning

Lire l'original ↗