RESEARCH29

Towards Understanding the Robustness of Sparse Autoencoders

arXiv CS.LG·22. April 2026

Diese Forschung untersucht die Robustheitsimplikationen von Sparse Autoencodern (SAEs) gegen Jailbreak-Angriffe auf Large Language Models (LLMs). Die Integration vortrainierter SAEs während der Inferenz reduziert die Jailbreak-Erfolgsraten erheblich um bis zu das Fünffache und verringert die Übertragbarkeit von Angriffen zwischen verschiedenen LLM-Familien.

LLMs security machine learning

Original lesen ↗