One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety
Esta investigación presenta la Descomposición Incremental de Completado (ICD), una nueva estrategia de jailbreak que explota las debilidades en los mecanismos de seguridad de los LLM al solicitar secuencias de continuaciones de una sola palabra. La ICD demuestra una Tasa de Éxito de Ataque (ASR) superior en varios benchmarks en comparación con métodos existentes, ofreciendo evidencia teórica y mecánica de su eficacia.