One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety
Esta pesquisa introduz a Decomposição Incremental de Completude (ICD), uma nova estratégia de jailbreak que explora as fraquezas nos mecanismos de segurança de LLMs ao elicitar sequências de palavras únicas. A ICD demonstra uma Taxa de Sucesso de Ataque (ASR) superior em diversos benchmarks em comparação com métodos existentes, fornecendo evidências teóricas e mecânicas de sua eficácia.