Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models
O artigo revela uma vulnerabilidade crítica em modelos de linguagem baseados em difusão (dLLMs), onde seu alinhamento de segurança, dependente de agendamentos de denoising monotônicos, pode ser facilmente contornado. Ao re-mascarar tokens de recusa e injetar um prefixo afirmativo, pesquisadores obtiveram altas taxas de sucesso de ataque contra dLLMs proeminentes, expondo uma falha estrutural.