RESEARCH29
DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows
arXiv CS.AI·20 mai 2026
DecisionBench est introduit comme une nouvelle référence pour la délégation émergente dans les workflows agentiques à long terme. Il comprend une suite de tâches fixe, un pool de modèles pairs et une suite de métriques multi-axes pour évaluer la qualité et le coût de la délégation.
Lire l'original ↗