One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety
Diese Studie stellt die Incremental Completion Decomposition (ICD) vor, eine neue Jailbreak-Strategie, die Schwachstellen in den Sicherheitsmechanismen von LLMs ausnutzt, indem sie Sequenzen von Einzelwort-Fortsetzungen hervorruft. ICD zeigt eine überlegene Angriffs-Erfolgsrate (ASR) auf verschiedenen Benchmarks im Vergleich zu bestehenden Methoden und liefert theoretische sowie mechanistische Beweise für ihre Wirksamkeit.