heapsort
RESEARCH29

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

arXiv CS.AI·20 de mayo de 2026

DecisionBench se presenta como un nuevo benchmark para la delegación emergente en flujos de trabajo agénticos de largo plazo. Incluye un conjunto fijo de tareas, un grupo de modelos pares y un conjunto de métricas multieje para evaluar la calidad y el costo de la delegación.

Leer original