RESEARCH27

Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks

arXiv CS.CL·8 mai 2026

Cette étude examine les attaques de réécriture multi-étapes sur les filigranes des modèles de langage à diffusion, qui servent à vérifier l'origine des textes générés par l'IA. Les résultats indiquent que les textes filigranés peuvent voir leur détection compromise après plusieurs réécritures par d'autres modèles de langage, même ceux qui ignorent la clé du filigrane.

Diffusion Models language models AI watermarking security text generation

Lire l'original ↗