RESEARCHarXiv CS.AI·vor 4T
SentinelBench: A Benchmark for Long-Running Monitoring Agents
SentinelBench ist ein neuer Open-Source-Benchmark für langlebige Überwachungsaufgaben von KI-Agenten. Er zielt darauf ab, den Fortschritt bei Aufgaben zu messen, die anhaltende Aufmerksamkeit statt kontinuierlicher Aktion erfordern, und umfasst 100 Aufgaben in 10 synthetischen Webumgebungen.
28