Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks
Este estudio investiga ataques de reescritura de varios pasos contra marcas de agua en modelos de lenguaje de difusión, utilizados para verificar la autoría de texto por IA. Los hallazgos demuestran que los textos con marcas de agua pueden ver su detección comprometida después de múltiples reescrituras por otros modelos de lenguaje, incluso sin conocer la clave de la marca de agua.