RESEARCH60
Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety
arXiv CS.AI·8. Juni 2026
Diese Arbeit untersucht die "Angriffsauswahl" in agentischen KI-Umgebungen, bei der Angreifer strategisch entscheiden, wann Angriffe gestartet und gestoppt werden. Die Ergebnisse zeigen, dass diese Fähigkeit die gemessene empirische Sicherheit in KI-Kontrollbewertungen erheblich reduziert, selbst bei begrenzten Prüfbudgets.
Original lesen ↗