heapsort
RESEARCH29

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

arXiv CS.CL·30 de abril de 2026

Esta investigación presenta la Descomposición Incremental de Completado (ICD), una nueva estrategia de jailbreak que explota las debilidades en los mecanismos de seguridad de los LLM al solicitar secuencias de continuaciones de una sola palabra. La ICD demuestra una Tasa de Éxito de Ataque (ASR) superior en varios benchmarks en comparación con métodos existentes, ofreciendo evidencia teórica y mecánica de su eficacia.

Leer original