long-running tasks — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.AI·vor 4T

SentinelBench: A Benchmark for Long-Running Monitoring Agents

SentinelBench ist ein neuer Open-Source-Benchmark für langlebige Überwachungsaufgaben von KI-Agenten. Er zielt darauf ab, den Fortschritt bei Aufgaben zu messen, die anhaltende Aufmerksamkeit statt kontinuierlicher Aktion erfordern, und umfasst 100 Aufgaben in 10 synthetischen Webumgebungen.

monitoring Benchmarking long-running tasks AI agents