Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety
Diese Arbeit untersucht die "Angriffsauswahl" in agentischen KI-Umgebungen, bei der Angreifer strategisch entscheiden, wann Angriffe gestartet und gestoppt werden. Die Ergebnisse zeigen, dass diese Fähigkeit die gemessene empirische Sicherheit in KI-Kontrollbewertungen erheblich reduziert, selbst bei begrenzten Prüfbudgets.