jailbreaking

3 items

RESEARCHarXiv CS.CL·4/30/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Diese Studie stellt die Incremental Completion Decomposition (ICD) vor, eine neue Jailbreak-Strategie, die Schwachstellen in den Sicherheitsmechanismen von LLMs ausnutzt, indem sie Sequenzen von Einzelwort-Fortsetzungen hervorruft. ICD zeigt eine überlegene Angriffs-Erfolgsrate (ASR) auf verschiedenen Benchmarks im Vergleich zu bestehenden Methoden und liefert theoretische sowie mechanistische Beweise für ihre Wirksamkeit.

LLMs jailbreaking security adversarial attacks

RESEARCHDEV.to AI·5/8/2026

Tiny weight edits improve LLM safety

Gezielte, geringfügige Gewichtsänderungen an spezifischen Aufmerksamkeitsköpfen in LLMs, wie durch die ASGuard-Methode gezeigt, können die Erfolgsraten von Jailbreaks drastisch senken. Dieser chirurgische Ansatz behebt Schwachstellen, wie Angriffe durch Zeitformwechsel, indem er die Aktivierungen in relevanten Aufmerksamkeitsköpfen dämpft und so die Sicherheit erheblich verbessert, ohne die Gesamtkompetenz des Modells zu beeinträchtigen.

AI models jailbreaking security LLM safety

RESEARCHDEV.to AI·4/15/2026

Scalable and Transferable Black-Box Jailbreaks for Language Models via PersonaModulation

Dieser Inhalt stellt PersonaModulation vor, eine neuartige Technik zur Erstellung skalierbarer und übertragbarer Black-Box-Jailbreaks für Sprachmodelle. Die Methode umgeht effektiv Sicherheitsmechanismen in LLMs, ohne internen Modellzugriff zu benötigen.

language models jailbreaking PersonaModulation Black-Box Attacks