RESEARCHarXiv CS.AI·4d atrás
SentinelBench: A Benchmark for Long-Running Monitoring Agents
O SentinelBench é um novo benchmark de código aberto para tarefas de monitoramento de agentes de IA de longa duração. Ele visa medir o progresso em tarefas que exigem atenção sustentada, em vez de ação contínua, em 100 tarefas em 10 ambientes web sintéticos.
28