RESEARCH27
Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks
arXiv CS.CL·8 de maio de 2026
Este estudo investiga ataques de reescrita multi-passos a marcas d'água em modelos de linguagem de difusão, que visam verificar a autoria de texto por IA. Os resultados demonstram que textos marcados com água podem ter sua detecção comprometida após múltiplas reescritas por outros modelos de linguagem, mesmo aqueles sem conhecimento da chave da marca d'água.
Ler original ↗