RESEARCH27
The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break
arXiv CS.AI·15 de abril de 2026
Esta investigación aborda el fallo de los agentes LLM en tareas de largo horizonte, que requieren secuencias de acciones extendidas e interdependientes. Introduce HORIZON, un benchmark de diagnóstico transdominio para construir tareas y analizar fallos, evaluando agentes de última generación y proponiendo un pipeline de "LLM-como-Juez" para una atribución escalable de fallos.
Leer original ↗