RESEARCH28
SentinelBench: A Benchmark for Long-Running Monitoring Agents
arXiv CS.AI·5 juin 2026
SentinelBench est un nouveau benchmark open-source pour les tâches de surveillance d'agents IA de longue durée. Il vise à mesurer les progrès sur des tâches nécessitant une attention soutenue plutôt qu'une action continue, à travers 100 tâches dans 10 environnements web synthétiques.
Lire l'original ↗