RESEARCH27

Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks

arXiv CS.CL·8. Mai 2026

Diese Studie untersucht mehrstufige Umschreibungsangriffe auf Wasserzeichen von Diffusions-Sprachmodellen, die zur Überprüfung der KI-Textherkunft verwendet werden. Die Ergebnisse zeigen, dass wasserzeichenversehene Texte nach mehrfachem Umschreiben durch andere Sprachmodelle, selbst ohne Kenntnis des Wasserzeichenschlüssels, ihre Erkennung beeinträchtigen können.

Diffusion Models language models AI watermarking security text generation

Original lesen ↗