RESEARCH29

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

arXiv CS.CL·13 de abril de 2026

O artigo revela uma vulnerabilidade crítica em modelos de linguagem baseados em difusão (dLLMs), onde seu alinhamento de segurança, dependente de agendamentos de denoising monotônicos, pode ser facilmente contornado. Ao re-mascarar tokens de recusa e injetar um prefixo afirmativo, pesquisadores obtiveram altas taxas de sucesso de ataque contra dLLMs proeminentes, expondo uma falha estrutural.

Diffusion Models language models vulnerability Exploitation Safety Alignment

Ler original ↗