RESEARCHarXiv CS.AI·hace 4d
SentinelBench: A Benchmark for Long-Running Monitoring Agents
SentinelBench es un nuevo benchmark de código abierto para tareas de monitoreo de agentes de IA de larga duración. Busca medir el progreso en tareas que requieren atención sostenida, en lugar de acción continua, a través de 100 tareas en 10 entornos web sintéticos.
28