RESEARCHarXiv CS.AI·15/4/2026
The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break
Esta investigación aborda el fallo de los agentes LLM en tareas de largo horizonte, que requieren secuencias de acciones extendidas e interdependientes. Introduce HORIZON, un benchmark de diagnóstico transdominio para construir tareas y analizar fallos, evaluando agentes de última generación y proponiendo un pipeline de "LLM-como-Juez" para una atribución escalable de fallos.
27