RESEARCH27

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

arXiv CS.AI·15 de abril de 2026

Esta pesquisa aborda a falha de agentes LLM em tarefas de longo horizonte, que exigem sequências de ações extensas e interdependentes. O estudo introduz HORIZON, um benchmark de diagnóstico entre domínios para construir tarefas e analisar falhas, avaliando agentes de ponta e propondo um pipeline "LLM-como-Juiz" para atribuição escalável de falhas.

Agentic Systems Long-horizon tasks LLM Agents failure diagnosis diagnostic benchmark

Ler original ↗