reward hacking — articles, actualités et recherches IA

RESEARCHarXiv CS.AI·il y a 27j

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Cet article présente BenchJack, un système automatisé pour auditer les benchmarks d'agents IA, visant à identifier les exploits de "reward hacking" où les agents maximisent les scores sans effectuer la tâche. Il établit une taxonomie des modèles de défauts récurrents et utilise un pipeline génératif-adversaire pour améliorer la robustesse des benchmarks.

red-teaming reward hacking security benchmarks