DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows
DecisionBench wird als neuer Benchmark für emergente Delegation in langwierigen agentischen Workflows vorgestellt. Es umfasst eine feste Aufgabensuite, einen Pool von Peer-Modellen und eine mehrachsige Metrik-Suite zur Bewertung der Delegationsqualität und -kosten.