RESEARCH29

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

arXiv CS.CL·13 de abril de 2026

El artículo revela una vulnerabilidad crítica en los modelos de lenguaje basados en difusión (dLLMs) donde su alineación de seguridad, basada en programas de denoising monotónicos, puede ser fácilmente eludida. Al volver a enmascarar tokens de rechazo e inyectar un prefijo afirmativo, los investigadores lograron altas tasas de éxito de ataque contra dLLMs destacados, exponiendo una falla estructural.

Diffusion Models language models vulnerability Exploitation Safety Alignment

Leer original ↗