RESEARCH27
Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack
arXiv CS.AI·14 mai 2026
Cet article présente BenchJack, un système automatisé pour auditer les benchmarks d'agents IA, visant à identifier les exploits de "reward hacking" où les agents maximisent les scores sans effectuer la tâche. Il établit une taxonomie des modèles de défauts récurrents et utilise un pipeline génératif-adversaire pour améliorer la robustesse des benchmarks.
Lire l'original ↗