RESEARCHarXiv CS.CL·08/05/2026
Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks
Cette étude examine les attaques de réécriture multi-étapes sur les filigranes des modèles de langage à diffusion, qui servent à vérifier l'origine des textes générés par l'IA. Les résultats indiquent que les textes filigranés peuvent voir leur détection compromise après plusieurs réécritures par d'autres modèles de langage, même ceux qui ignorent la clé du filigrane.
27