RESEARCH60
Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety
arXiv CS.AI·8 de junho de 2026
Este artigo investiga a "seleção de ataque" em ambientes de IA agêntica, onde atacantes escolhem estrategicamente quando iniciar e parar ataques. Os resultados demonstram que esta capacidade de seleção de ataque reduz significativamente a segurança empírica em avaliações de controle de IA, mesmo com orçamentos de auditoria limitados.
Ler original ↗