Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks
Diese Studie untersucht mehrstufige Umschreibungsangriffe auf Wasserzeichen von Diffusions-Sprachmodellen, die zur Überprüfung der KI-Textherkunft verwendet werden. Die Ergebnisse zeigen, dass wasserzeichenversehene Texte nach mehrfachem Umschreiben durch andere Sprachmodelle, selbst ohne Kenntnis des Wasserzeichenschlüssels, ihre Erkennung beeinträchtigen können.