RESEARCH28

SentinelBench: A Benchmark for Long-Running Monitoring Agents

arXiv CS.AI·5. Juni 2026

SentinelBench ist ein neuer Open-Source-Benchmark für langlebige Überwachungsaufgaben von KI-Agenten. Er zielt darauf ab, den Fortschritt bei Aufgaben zu messen, die anhaltende Aufmerksamkeit statt kontinuierlicher Aktion erfordern, und umfasst 100 Aufgaben in 10 synthetischen Webumgebungen.

monitoring Benchmarking long-running tasks AI agents web environments

Original lesen ↗