long-running tasks — artículos, noticias e investigación de IA

RESEARCHarXiv CS.AI·hace 4d

SentinelBench: A Benchmark for Long-Running Monitoring Agents

SentinelBench es un nuevo benchmark de código abierto para tareas de monitoreo de agentes de IA de larga duración. Busca medir el progreso en tareas que requieren atención sostenida, en lugar de acción continua, a través de 100 tareas en 10 entornos web sintéticos.

monitoring Benchmarking long-running tasks AI agents