RESEARCH27

Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks

arXiv CS.CL·8 de maio de 2026

Este estudo investiga ataques de reescrita multi-passos a marcas d'água em modelos de linguagem de difusão, que visam verificar a autoria de texto por IA. Os resultados demonstram que textos marcados com água podem ter sua detecção comprometida após múltiplas reescritas por outros modelos de linguagem, mesmo aqueles sem conhecimento da chave da marca d'água.

Diffusion Models language models AI watermarking security text generation

Ler original ↗