RESEARCH28

SentinelBench: A Benchmark for Long-Running Monitoring Agents

arXiv CS.AI·5 juin 2026

SentinelBench est un nouveau benchmark open-source pour les tâches de surveillance d'agents IA de longue durée. Il vise à mesurer les progrès sur des tâches nécessitant une attention soutenue plutôt qu'une action continue, à travers 100 tâches dans 10 environnements web synthétiques.

monitoring Benchmarking long-running tasks AI agents web environments

Lire l'original ↗