RESEARCH60

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

arXiv CS.AI·8 juin 2026

Cet article examine la "sélection d'attaque" dans des contextes d'IA agentique, où les attaquants choisissent stratégiquement quand lancer et arrêter les attaques. Les résultats montrent que cette capacité réduit considérablement la sécurité empirique dans les évaluations de contrôle de l'IA, même avec des budgets d'audit limités.

security AI control Agentic AI adversarial attacks AI safety

Lire l'original ↗