RESEARCH28
SentinelBench: A Benchmark for Long-Running Monitoring Agents
arXiv CS.AI·5. Juni 2026
SentinelBench ist ein neuer Open-Source-Benchmark für langlebige Überwachungsaufgaben von KI-Agenten. Er zielt darauf ab, den Fortschritt bei Aufgaben zu messen, die anhaltende Aufmerksamkeit statt kontinuierlicher Aktion erfordern, und umfasst 100 Aufgaben in 10 synthetischen Webumgebungen.
Original lesen ↗