RESEARCH27
The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break
arXiv CS.AI·15 avril 2026
Cette recherche s'intéresse à la défaillance des agents LLM dans les tâches à long horizon, qui nécessitent des séquences d'actions étendues et interdépendantes. Elle présente HORIZON, un benchmark de diagnostic inter-domaines pour construire des tâches et analyser les comportements de défaillance, évaluant les agents de pointe et proposant un pipeline "LLM-as-a-Judge" pour une attribution d'échecs évolutive.
Lire l'original ↗