RESEARCH27

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

arXiv CS.AI·15 de abril de 2026

Esta investigación aborda el fallo de los agentes LLM en tareas de largo horizonte, que requieren secuencias de acciones extendidas e interdependientes. Introduce HORIZON, un benchmark de diagnóstico transdominio para construir tareas y analizar fallos, evaluando agentes de última generación y proponiendo un pipeline de "LLM-como-Juez" para una atribución escalable de fallos.

Agentic Systems Long-horizon tasks LLM Agents failure diagnosis diagnostic benchmark

Leer original ↗