reward hacking — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.AI·vor 26T

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Dieses Papier stellt BenchJack vor, ein automatisiertes System zur Prüfung von KI-Agenten-Benchmarks, um "Belohnungs-Hacking" zu identifizieren, bei dem Agenten Punktzahlen maximieren, ohne die eigentliche Aufgabe zu erfüllen. Es leitet eine Taxonomie wiederkehrender Fehler ab und verwendet eine iterative generativ-adversarielle Pipeline zur Verbesserung der Benchmark-Robustheit.

red-teaming reward hacking security Benchmarks