RESEARCH27

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

arXiv CS.AI·14. Mai 2026

Dieses Papier stellt BenchJack vor, ein automatisiertes System zur Prüfung von KI-Agenten-Benchmarks, um "Belohnungs-Hacking" zu identifizieren, bei dem Agenten Punktzahlen maximieren, ohne die eigentliche Aufgabe zu erfüllen. Es leitet eine Taxonomie wiederkehrender Fehler ab und verwendet eine iterative generativ-adversarielle Pipeline zur Verbesserung der Benchmark-Robustheit.

red-teaming reward hacking security Benchmarks AI agents

Original lesen ↗