heapsort
RESEARCH29

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

arXiv CS.AI·20. Mai 2026

DecisionBench wird als neuer Benchmark für emergente Delegation in langwierigen agentischen Workflows vorgestellt. Es umfasst eine feste Aufgabensuite, einen Pool von Peer-Modellen und eine mehrachsige Metrik-Suite zur Bewertung der Delegationsqualität und -kosten.

Original lesen