heapsort
RESEARCH29

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

arXiv CS.AI·20 mai 2026

DecisionBench est introduit comme une nouvelle référence pour la délégation émergente dans les workflows agentiques à long terme. Il comprend une suite de tâches fixe, un pool de modèles pairs et une suite de métriques multi-axes pour évaluer la qualité et le coût de la délégation.

Lire l'original