RESEARCH28

SentinelBench: A Benchmark for Long-Running Monitoring Agents

arXiv CS.AI·5 de junio de 2026

SentinelBench es un nuevo benchmark de código abierto para tareas de monitoreo de agentes de IA de larga duración. Busca medir el progreso en tareas que requieren atención sostenida, en lugar de acción continua, a través de 100 tareas en 10 entornos web sintéticos.

monitoring Benchmarking long-running tasks AI agents web environments

Leer original ↗