RESEARCH60

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

arXiv CS.AI·8. Juni 2026

Diese Arbeit untersucht die "Angriffsauswahl" in agentischen KI-Umgebungen, bei der Angreifer strategisch entscheiden, wann Angriffe gestartet und gestoppt werden. Die Ergebnisse zeigen, dass diese Fähigkeit die gemessene empirische Sicherheit in KI-Kontrollbewertungen erheblich reduziert, selbst bei begrenzten Prüfbudgets.

security AI control Agentic AI adversarial attacks AI safety

Original lesen ↗