One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety
Cette recherche introduit la Décomposition Incrémentale de Complétion (ICD), une nouvelle stratégie de jailbreak qui exploite les faiblesses des mécanismes de sécurité des LLM en sollicitant des séquences de continuations d'un seul mot. L'ICD démontre un taux de réussite d'attaque (ASR) supérieur sur divers benchmarks par rapport aux méthodes existantes, fournissant des preuves théoriques et mécaniques de son efficacité.