RESEARCH27

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

arXiv CS.AI·14 mai 2026

Cet article présente BenchJack, un système automatisé pour auditer les benchmarks d'agents IA, visant à identifier les exploits de "reward hacking" où les agents maximisent les scores sans effectuer la tâche. Il établit une taxonomie des modèles de défauts récurrents et utilise un pipeline génératif-adversaire pour améliorer la robustesse des benchmarks.

red-teaming reward hacking security Benchmarks AI agents

Lire l'original ↗