jailbreaking

3 items

RESEARCHarXiv CS.CL·30/04/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Cette recherche introduit la Décomposition Incrémentale de Complétion (ICD), une nouvelle stratégie de jailbreak qui exploite les faiblesses des mécanismes de sécurité des LLM en sollicitant des séquences de continuations d'un seul mot. L'ICD démontre un taux de réussite d'attaque (ASR) supérieur sur divers benchmarks par rapport aux méthodes existantes, fournissant des preuves théoriques et mécaniques de son efficacité.

LLMs jailbreaking security adversarial attacks

RESEARCHDEV.to AI·08/05/2026

Tiny weight edits improve LLM safety

De minuscules modifications ciblées des poids dans des têtes d'attention spécifiques des LLMs, comme le montre la méthode ASGuard, peuvent réduire drastiquement les taux de succès des jailbreaks. Cette approche chirurgicale corrige les vulnérabilités, telles que les attaques de changement de temps, en atténuant les activations dans les têtes d'attention pertinentes, améliorant considérablement la sécurité tout en maintenant la compétence globale du modèle.

AI models jailbreaking security LLM safety

RESEARCHDEV.to AI·15/04/2026

Scalable and Transferable Black-Box Jailbreaks for Language Models via PersonaModulation

Ce contenu présente PersonaModulation, une technique innovante pour créer des jailbreaks évolutifs et transférables en boîte noire pour les modèles de langage. La méthode contourne efficacement les mécanismes de sécurité des LLM sans nécessiter d'accès interne au modèle.

language models jailbreaking PersonaModulation Black-Box Attacks