← heapsort-ai

Exploitation

2 items

RESEARCHarXiv CS.CL·13/4/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

El artículo revela una vulnerabilidad crítica en los modelos de lenguaje basados en difusión (dLLMs) donde su alineación de seguridad, basada en programas de denoising monotónicos, puede ser fácilmente eludida. Al volver a enmascarar tokens de rechazo e inyectar un prefijo afirmativo, los investigadores lograron altas tasas de éxito de ataque contra dLLMs destacados, exponiendo una falla estructural.

29