RESEARCH27
Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack
arXiv CS.AI·14 de mayo de 2026
Este artículo presenta BenchJack, un sistema automatizado para auditar benchmarks de agentes de IA, con el fin de identificar la "manipulación de recompensas" donde los agentes maximizan las puntuaciones sin realizar la tarea. Deriva una taxonomía de patrones de fallas y utiliza un pipeline generativo-adversarial para mejorar la robustez de los benchmarks.
Leer original ↗