RESEARCH27

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

arXiv CS.AI·15 avril 2026

Cette recherche s'intéresse à la défaillance des agents LLM dans les tâches à long horizon, qui nécessitent des séquences d'actions étendues et interdépendantes. Elle présente HORIZON, un benchmark de diagnostic inter-domaines pour construire des tâches et analyser les comportements de défaillance, évaluant les agents de pointe et proposant un pipeline "LLM-as-a-Judge" pour une attribution d'échecs évolutive.

Agentic Systems Long-horizon tasks LLM Agents failure diagnosis diagnostic benchmark

Lire l'original ↗