RESEARCH27

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

arXiv CS.AI·14 de maio de 2026

Este artigo introduz o BenchJack, um sistema automatizado para auditar benchmarks de agentes de IA, visando identificar explorações de "reward hacking" onde os agentes maximizam pontuações sem realizar a tarefa pretendida. Ele deriva uma taxonomia de falhas e utiliza um pipeline generativo-adversarial para melhorar a robustez dos benchmarks.

red-teaming reward hacking security Benchmarks AI agents

Ler original ↗