RESEARCH60
Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety
arXiv CS.AI·8 juin 2026
Cet article examine la "sélection d'attaque" dans des contextes d'IA agentique, où les attaquants choisissent stratégiquement quand lancer et arrêter les attaques. Les résultats montrent que cette capacité réduit considérablement la sécurité empirique dans les évaluations de contrôle de l'IA, même avec des budgets d'audit limités.
Lire l'original ↗