← heapsort-ai

Exploitation

2 items

RESEARCHarXiv CS.CL·13/04/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

O artigo revela uma vulnerabilidade crítica em modelos de linguagem baseados em difusão (dLLMs), onde seu alinhamento de segurança, dependente de agendamentos de denoising monotônicos, pode ser facilmente contornado. Ao re-mascarar tokens de recusa e injetar um prefixo afirmativo, pesquisadores obtiveram altas taxas de sucesso de ataque contra dLLMs proeminentes, expondo uma falha estrutural.

29