heapsort
RESEARCH29

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

arXiv CS.CL·30 avril 2026

Cette recherche introduit la Décomposition Incrémentale de Complétion (ICD), une nouvelle stratégie de jailbreak qui exploite les faiblesses des mécanismes de sécurité des LLM en sollicitant des séquences de continuations d'un seul mot. L'ICD démontre un taux de réussite d'attaque (ASR) supérieur sur divers benchmarks par rapport aux méthodes existantes, fournissant des preuves théoriques et mécaniques de son efficacité.

Lire l'original