← heapsort-ai

AI control

5 items

RESEARCHarXiv CS.AI·il y a 1j

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

Cet article examine la "sélection d'attaque" dans des contextes d'IA agentique, où les attaquants choisissent stratégiquement quand lancer et arrêter les attaques. Les résultats montrent que cette capacité réduit considérablement la sécurité empirique dans les évaluations de contrôle de l'IA, même avec des budgets d'audit limités.

60