reward hacking — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.AI·27d atrás

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Este artigo introduz o BenchJack, um sistema automatizado para auditar benchmarks de agentes de IA, visando identificar explorações de "reward hacking" onde os agentes maximizam pontuações sem realizar a tarefa pretendida. Ele deriva uma taxonomia de falhas e utiliza um pipeline generativo-adversarial para melhorar a robustez dos benchmarks.

red-teaming reward hacking security Benchmarks