RESEARCH60

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

arXiv CS.AI·8 de junio de 2026

Este artículo investiga la "selección de ataque" en configuraciones de IA agéntica, donde los atacantes eligen estratégicamente cuándo iniciar y detener los ataques. Los hallazgos demuestran que esta capacidad reduce significativamente la seguridad empírica en las evaluaciones de control de IA, incluso con presupuestos de auditoría limitados.

security AI control Agentic AI adversarial attacks AI safety

Leer original ↗