RESEARCH60

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

arXiv CS.AI·8 de junho de 2026

Este artigo investiga a "seleção de ataque" em ambientes de IA agêntica, onde atacantes escolhem estrategicamente quando iniciar e parar ataques. Os resultados demonstram que esta capacidade de seleção de ataque reduz significativamente a segurança empírica em avaliações de controle de IA, mesmo com orçamentos de auditoria limitados.

security AI control Agentic AI adversarial attacks AI safety

Ler original ↗