RESEARCHarXiv CS.AI·27d atrás
Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack
Este artigo introduz o BenchJack, um sistema automatizado para auditar benchmarks de agentes de IA, visando identificar explorações de "reward hacking" onde os agentes maximizam pontuações sem realizar a tarefa pretendida. Ele deriva uma taxonomia de falhas e utiliza um pipeline generativo-adversarial para melhorar a robustez dos benchmarks.
27