RESEARCH60
Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety
arXiv CS.AI·8 de junio de 2026
Este artículo investiga la "selección de ataque" en configuraciones de IA agéntica, donde los atacantes eligen estratégicamente cuándo iniciar y detener los ataques. Los hallazgos demuestran que esta capacidad reduce significativamente la seguridad empírica en las evaluaciones de control de IA, incluso con presupuestos de auditoría limitados.
Leer original ↗