jailbreaking

3 items

RESEARCHarXiv CS.CL·30/4/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Esta investigación presenta la Descomposición Incremental de Completado (ICD), una nueva estrategia de jailbreak que explota las debilidades en los mecanismos de seguridad de los LLM al solicitar secuencias de continuaciones de una sola palabra. La ICD demuestra una Tasa de Éxito de Ataque (ASR) superior en varios benchmarks en comparación con métodos existentes, ofreciendo evidencia teórica y mecánica de su eficacia.

LLMs jailbreaking security adversarial attacks

RESEARCHDEV.to AI·8/5/2026

Tiny weight edits improve LLM safety

Pequeñas ediciones de peso dirigidas a cabezas de atención específicas en LLMs, como demuestra el método ASGuard, pueden reducir drásticamente las tasas de éxito de los jailbreaks. Este enfoque quirúrgico corrige vulnerabilidades, como los ataques de cambio de tiempo verbal, al amortiguar las activaciones en las cabezas de atención relevantes, mejorando significativamente la seguridad sin comprometer la competencia general del modelo.

AI models jailbreaking security LLM safety

RESEARCHDEV.to AI·15/4/2026

Scalable and Transferable Black-Box Jailbreaks for Language Models via PersonaModulation

Este contenido introduce PersonaModulation, una técnica novedosa para crear jailbreaks escalables y transferibles de caja negra para modelos de lenguaje. El método elude eficazmente los mecanismos de seguridad de los LLM sin requerir acceso interno al modelo.

language models jailbreaking PersonaModulation Black-Box Attacks