heapsort
RESEARCH29

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

arXiv CS.AI·20 de maio de 2026

DecisionBench é apresentado como um novo benchmark para a delegação emergente em fluxos de trabalho agenticos de longo prazo. Ele inclui um conjunto fixo de tarefas, um pool de modelos e uma suíte de métricas multi-eixo para avaliar a qualidade e o custo da delegação.

Ler original