RESEARCH29
DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows
arXiv CS.AI·20 de maio de 2026
DecisionBench é apresentado como um novo benchmark para a delegação emergente em fluxos de trabalho agenticos de longo prazo. Ele inclui um conjunto fixo de tarefas, um pool de modelos e uma suíte de métricas multi-eixo para avaliar a qualidade e o custo da delegação.
Ler original ↗