RESEARCH29
Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models
arXiv CS.CL·13 avril 2026
Cet article révèle une vulnérabilité critique dans les modèles de langage basés sur la diffusion (dLLMs) où leur alignement de sécurité, reposant sur des calendriers de débruitage monotones, peut être facilement contourné. En masquant à nouveau les jetons de refus et en injectant un préfixe affirmatif, les chercheurs ont obtenu des taux de réussite d'attaque élevés contre des dLLMs proéminents, exposant une faille structurelle.
Lire l'original ↗