Long-horizon tasks

3 items

RESEARCHarXiv CS.AI·vor 20T

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

DecisionBench wird als neuer Benchmark für emergente Delegation in langwierigen agentischen Workflows vorgestellt. Es umfasst eine feste Aufgabensuite, einen Pool von Peer-Modellen und eine mehrachsige Metrik-Suite zur Bewertung der Delegationsqualität und -kosten.

Long-horizon tasks workflow automation Benchmarking delegation

RESEARCHarXiv CS.AI·4/15/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Diese Forschung befasst sich mit dem Versagen von LLM-Agenten bei Aufgaben mit langem Zeithorizont, die erweiterte, voneinander abhängige Handlungssequenzen erfordern. Sie stellt HORIZON vor, einen domänenübergreifenden diagnostischen Benchmark, der darauf ausgelegt ist, Aufgaben systematisch zu konstruieren und Fehlerverhalten zu analysieren, modernste Agenten zu bewerten und eine LLM-als-Richter-Pipeline für skalierbare Fehlerzuweisung vorzuschlagen.

Agentic Systems Long-horizon tasks LLM Agents failure diagnosis

RESEARCHarXiv CS.LG·vor 8T

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Diese Forschung stellt LongDS vor, einen neuen Benchmark zur Bewertung von KI-Agenten bei langfristigen, mehrstufigen Datenanalyseaufgaben, der 68 Aufgaben aus realen Kaggle-Notebooks umfasst. Es zeigt sich, dass die besten Modelle nur eine durchschnittliche Genauigkeit von 48,45% erreichen und die Leistung in späteren Phasen erheblich abfällt, was ein kritisches Versagen bei der Verfolgung des sich entwickelnden Analysekontexts hervorhebt.

Long-horizon tasks Kaggle AI Benchmarks data analysis