← heapsort-ai

adversarial attacks

4 items

RESEARCHarXiv CS.AI·il y a 1j

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

Cet article examine la "sélection d'attaque" dans des contextes d'IA agentique, où les attaquants choisissent stratégiquement quand lancer et arrêter les attaques. Les résultats montrent que cette capacité réduit considérablement la sécurité empirique dans les évaluations de contrôle de l'IA, même avec des budgets d'audit limités.

60
RESEARCHarXiv CS.CL·30/04/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Cette recherche introduit la Décomposition Incrémentale de Complétion (ICD), une nouvelle stratégie de jailbreak qui exploite les faiblesses des mécanismes de sécurité des LLM en sollicitant des séquences de continuations d'un seul mot. L'ICD démontre un taux de réussite d'attaque (ASR) supérieur sur divers benchmarks par rapport aux méthodes existantes, fournissant des preuves théoriques et mécaniques de son efficacité.

29
RESEARCHarXiv CS.LG·il y a 21j

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Cette recherche étudie le masquage d'actions adversaire dans l'apprentissage par renforcement en auto-apprentissage, où un attaquant supprime sélectivement des actions légales de l'ensemble d'actions d'une victime. L'étude a révélé que le masquage appris cause des dommages considérablement plus importants que le masquage aléatoire, identifiant la disponibilité des actions comme une surface de robustesse distincte dans le RL en auto-apprentissage.

27
RESEARCHarXiv CS.LG·il y a 6j

Making Brain-Computer Interfaces More Secure

Cette étude propose une architecture personnalisée de Réseau Neuronal Convolutif (CNN) léger pour évaluer la robustesse aux attaques adversaires dans les interfaces cerveau-ordinateur (ICO) basées sur l'EEG. La méthode est testée avec deux ensembles de données EEG et comparée à d'autres modèles CNN dans des scénarios d'attaque basés sur le gradient pour assurer un déploiement fiable des ICO.

27