RESEARCH29
One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety
arXiv CS.CL·30 de abril de 2026
Esta pesquisa introduz a Decomposição Incremental de Completude (ICD), uma nova estratégia de jailbreak que explora as fraquezas nos mecanismos de segurança de LLMs ao elicitar sequências de palavras únicas. A ICD demonstra uma Taxa de Sucesso de Ataque (ASR) superior em diversos benchmarks em comparação com métodos existentes, fornecendo evidências teóricas e mecânicas de sua eficácia.
Ler original ↗