RESEARCHarXiv CS.AI·15/04/2026
The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break
Cette recherche s'intéresse à la défaillance des agents LLM dans les tâches à long horizon, qui nécessitent des séquences d'actions étendues et interdépendantes. Elle présente HORIZON, un benchmark de diagnostic inter-domaines pour construire des tâches et analyser les comportements de défaillance, évaluant les agents de pointe et proposant un pipeline "LLM-as-a-Judge" pour une attribution d'échecs évolutive.
27