← heapsort-ai

jailbreaking

3 items

RESEARCHarXiv CS.CL·4/30/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Diese Studie stellt die Incremental Completion Decomposition (ICD) vor, eine neue Jailbreak-Strategie, die Schwachstellen in den Sicherheitsmechanismen von LLMs ausnutzt, indem sie Sequenzen von Einzelwort-Fortsetzungen hervorruft. ICD zeigt eine überlegene Angriffs-Erfolgsrate (ASR) auf verschiedenen Benchmarks im Vergleich zu bestehenden Methoden und liefert theoretische sowie mechanistische Beweise für ihre Wirksamkeit.

29
RESEARCHDEV.to AI·5/8/2026

Tiny weight edits improve LLM safety

Gezielte, geringfügige Gewichtsänderungen an spezifischen Aufmerksamkeitsköpfen in LLMs, wie durch die ASGuard-Methode gezeigt, können die Erfolgsraten von Jailbreaks drastisch senken. Dieser chirurgische Ansatz behebt Schwachstellen, wie Angriffe durch Zeitformwechsel, indem er die Aktivierungen in relevanten Aufmerksamkeitsköpfen dämpft und so die Sicherheit erheblich verbessert, ohne die Gesamtkompetenz des Modells zu beeinträchtigen.

27