Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety
Este artículo investiga la "selección de ataque" en configuraciones de IA agéntica, donde los atacantes eligen estratégicamente cuándo iniciar y detener los ataques. Los hallazgos demuestran que esta capacidad reduce significativamente la seguridad empírica en las evaluaciones de control de IA, incluso con presupuestos de auditoría limitados.
