← heapsort-ai

jailbreaking

3 items

RESEARCHarXiv CS.CL·30/04/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Cette recherche introduit la Décomposition Incrémentale de Complétion (ICD), une nouvelle stratégie de jailbreak qui exploite les faiblesses des mécanismes de sécurité des LLM en sollicitant des séquences de continuations d'un seul mot. L'ICD démontre un taux de réussite d'attaque (ASR) supérieur sur divers benchmarks par rapport aux méthodes existantes, fournissant des preuves théoriques et mécaniques de son efficacité.

29
RESEARCHDEV.to AI·08/05/2026

Tiny weight edits improve LLM safety

De minuscules modifications ciblées des poids dans des têtes d'attention spécifiques des LLMs, comme le montre la méthode ASGuard, peuvent réduire drastiquement les taux de succès des jailbreaks. Cette approche chirurgicale corrige les vulnérabilités, telles que les attaques de changement de temps, en atténuant les activations dans les têtes d'attention pertinentes, améliorant considérablement la sécurité tout en maintenant la compétence globale du modèle.

27