Long-horizon tasks

3 items

RESEARCHarXiv CS.AI·hace 20d

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

DecisionBench se presenta como un nuevo benchmark para la delegación emergente en flujos de trabajo agénticos de largo plazo. Incluye un conjunto fijo de tareas, un grupo de modelos pares y un conjunto de métricas multieje para evaluar la calidad y el costo de la delegación.

Long-horizon tasks workflow automation Benchmarking delegation

RESEARCHarXiv CS.AI·15/4/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Esta investigación aborda el fallo de los agentes LLM en tareas de largo horizonte, que requieren secuencias de acciones extendidas e interdependientes. Introduce HORIZON, un benchmark de diagnóstico transdominio para construir tareas y analizar fallos, evaluando agentes de última generación y proponiendo un pipeline de "LLM-como-Juez" para una atribución escalable de fallos.

Agentic Systems Long-horizon tasks LLM Agents failure diagnosis

RESEARCHarXiv CS.LG·hace 8d

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Esta investigación introduce LongDS, un nuevo benchmark para evaluar agentes de IA en tareas de análisis de datos de largo horizonte y múltiples turnos, compuesto por 68 tareas de notebooks reales de Kaggle. Revela que los modelos de vanguardia alcanzan solo un 48,45% de precisión, con una caída significativa del rendimiento en turnos posteriores, destacando un fallo crítico en el seguimiento del contexto analítico evolutivo.

Long-horizon tasks Kaggle AI Benchmarks data analysis