← heapsort-ai

AI control

5 items

RESEARCHarXiv CS.AI·hace 1d

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

Este artículo investiga la "selección de ataque" en configuraciones de IA agéntica, donde los atacantes eligen estratégicamente cuándo iniciar y detener los ataques. Los hallazgos demuestran que esta capacidad reduce significativamente la seguridad empírica en las evaluaciones de control de IA, incluso con presupuestos de auditoría limitados.

60