← heapsort-ai

diagnostic benchmark

1 items

RESEARCHarXiv CS.AI·15/4/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Esta investigación aborda el fallo de los agentes LLM en tareas de largo horizonte, que requieren secuencias de acciones extendidas e interdependientes. Introduce HORIZON, un benchmark de diagnóstico transdominio para construir tareas y analizar fallos, evaluando agentes de última generación y proponiendo un pipeline de "LLM-como-Juez" para una atribución escalable de fallos.

27