RESEARCH27

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

arXiv CS.AI·15. April 2026

Diese Forschung befasst sich mit dem Versagen von LLM-Agenten bei Aufgaben mit langem Zeithorizont, die erweiterte, voneinander abhängige Handlungssequenzen erfordern. Sie stellt HORIZON vor, einen domänenübergreifenden diagnostischen Benchmark, der darauf ausgelegt ist, Aufgaben systematisch zu konstruieren und Fehlerverhalten zu analysieren, modernste Agenten zu bewerten und eine LLM-als-Richter-Pipeline für skalierbare Fehlerzuweisung vorzuschlagen.

Agentic Systems Long-horizon tasks LLM agents failure diagnosis diagnostic benchmark

Original lesen ↗