RESEARCH29
DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows
arXiv CS.AI·20. Mai 2026
DecisionBench wird als neuer Benchmark für emergente Delegation in langwierigen agentischen Workflows vorgestellt. Es umfasst eine feste Aufgabensuite, einen Pool von Peer-Modellen und eine mehrachsige Metrik-Suite zur Bewertung der Delegationsqualität und -kosten.
Original lesen ↗