RESEARCH29
Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models
arXiv CS.CL·13 de abril de 2026
El artículo revela una vulnerabilidad crítica en los modelos de lenguaje basados en difusión (dLLMs) donde su alineación de seguridad, basada en programas de denoising monotónicos, puede ser fácilmente eludida. Al volver a enmascarar tokens de rechazo e inyectar un prefijo afirmativo, los investigadores lograron altas tasas de éxito de ataque contra dLLMs destacados, exponiendo una falla estructural.
Leer original ↗