RESEARCH29
Towards Understanding the Robustness of Sparse Autoencoders
arXiv CS.LG·22. April 2026
Diese Forschung untersucht die Robustheitsimplikationen von Sparse Autoencodern (SAEs) gegen Jailbreak-Angriffe auf Large Language Models (LLMs). Die Integration vortrainierter SAEs während der Inferenz reduziert die Jailbreak-Erfolgsraten erheblich um bis zu das Fünffache und verringert die Übertragbarkeit von Angriffen zwischen verschiedenen LLM-Familien.
Original lesen ↗