web environments — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.AI·4d atrás

SentinelBench: A Benchmark for Long-Running Monitoring Agents

O SentinelBench é um novo benchmark de código aberto para tarefas de monitoramento de agentes de IA de longa duração. Ele visa medir o progresso em tarefas que exigem atenção sustentada, em vez de ação contínua, em 100 tarefas em 10 ambientes web sintéticos.

monitoring Benchmarking long-running tasks AI agents