DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows
DecisionBench est introduit comme une nouvelle référence pour la délégation émergente dans les workflows agentiques à long terme. Il comprend une suite de tâches fixe, un pool de modèles pairs et une suite de métriques multi-axes pour évaluer la qualité et le coût de la délégation.
