adversarial attacks

4 items

RESEARCHarXiv CS.AI·vor 1T

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

Diese Arbeit untersucht die "Angriffsauswahl" in agentischen KI-Umgebungen, bei der Angreifer strategisch entscheiden, wann Angriffe gestartet und gestoppt werden. Die Ergebnisse zeigen, dass diese Fähigkeit die gemessene empirische Sicherheit in KI-Kontrollbewertungen erheblich reduziert, selbst bei begrenzten Prüfbudgets.

security AI control Agentic AI adversarial attacks

RESEARCHarXiv CS.CL·4/30/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Diese Studie stellt die Incremental Completion Decomposition (ICD) vor, eine neue Jailbreak-Strategie, die Schwachstellen in den Sicherheitsmechanismen von LLMs ausnutzt, indem sie Sequenzen von Einzelwort-Fortsetzungen hervorruft. ICD zeigt eine überlegene Angriffs-Erfolgsrate (ASR) auf verschiedenen Benchmarks im Vergleich zu bestehenden Methoden und liefert theoretische sowie mechanistische Beweise für ihre Wirksamkeit.

LLMs jailbreaking security adversarial attacks

RESEARCHarXiv CS.LG·vor 6T

Making Brain-Computer Interfaces More Secure

Diese Studie schlägt eine leichtgewichtige, angepasste Faltungsneuronale Netzwerk (CNN)-Architektur vor, um die robuste Sicherheit gegenüber adversariellen Angriffen in EEG-basierten Gehirn-Computer-Schnittstellen (BCIs) zu untersuchen. Die Methode wird anhand von zwei EEG-Datensätzen bewertet und mit anderen CNN-Modellen unter gradientenbasierten adversariellen Angriffsszenarien verglichen, um einen zuverlässigen Einsatz von BCIs zu gewährleisten.

neural networks brain-computer interfaces security machine learning

RESEARCHarXiv CS.LG·vor 21T

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Diese Forschung untersucht die gegnerische Aktionsmaskierung im Self-Play Reinforcement Learning, bei der ein Angreifer selektiv legale Aktionen aus dem Aktionssatz eines Opfers entfernt. Die Studie ergab, dass erlerntes Maskieren wesentlich mehr Schaden anrichtet als zufälliges Maskieren, wodurch die Verfügbarkeit von Aktionen als kritische Robustheitsoberfläche im Self-Play RL identifiziert wird.

reinforcement learning security self-play adversarial attacks