RESEARCHarXiv CS.AI·vor 26T
Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack
Dieses Papier stellt BenchJack vor, ein automatisiertes System zur Prüfung von KI-Agenten-Benchmarks, um "Belohnungs-Hacking" zu identifizieren, bei dem Agenten Punktzahlen maximieren, ohne die eigentliche Aufgabe zu erfüllen. Es leitet eine Taxonomie wiederkehrender Fehler ab und verwendet eine iterative generativ-adversarielle Pipeline zur Verbesserung der Benchmark-Robustheit.
27