← heapsort-ai

adversarial attacks

4 items

RESEARCHarXiv CS.CL·4/30/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Diese Studie stellt die Incremental Completion Decomposition (ICD) vor, eine neue Jailbreak-Strategie, die Schwachstellen in den Sicherheitsmechanismen von LLMs ausnutzt, indem sie Sequenzen von Einzelwort-Fortsetzungen hervorruft. ICD zeigt eine überlegene Angriffs-Erfolgsrate (ASR) auf verschiedenen Benchmarks im Vergleich zu bestehenden Methoden und liefert theoretische sowie mechanistische Beweise für ihre Wirksamkeit.

29
RESEARCHarXiv CS.LG·vor 6T

Making Brain-Computer Interfaces More Secure

Diese Studie schlägt eine leichtgewichtige, angepasste Faltungsneuronale Netzwerk (CNN)-Architektur vor, um die robuste Sicherheit gegenüber adversariellen Angriffen in EEG-basierten Gehirn-Computer-Schnittstellen (BCIs) zu untersuchen. Die Methode wird anhand von zwei EEG-Datensätzen bewertet und mit anderen CNN-Modellen unter gradientenbasierten adversariellen Angriffsszenarien verglichen, um einen zuverlässigen Einsatz von BCIs zu gewährleisten.

27
RESEARCHarXiv CS.LG·vor 21T

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Diese Forschung untersucht die gegnerische Aktionsmaskierung im Self-Play Reinforcement Learning, bei der ein Angreifer selektiv legale Aktionen aus dem Aktionssatz eines Opfers entfernt. Die Studie ergab, dass erlerntes Maskieren wesentlich mehr Schaden anrichtet als zufälliges Maskieren, wodurch die Verfügbarkeit von Aktionen als kritische Robustheitsoberfläche im Self-Play RL identifiziert wird.

27