← heapsort-ai

Long-horizon tasks

3 items

RESEARCHarXiv CS.AI·15/4/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Esta investigación aborda el fallo de los agentes LLM en tareas de largo horizonte, que requieren secuencias de acciones extendidas e interdependientes. Introduce HORIZON, un benchmark de diagnóstico transdominio para construir tareas y analizar fallos, evaluando agentes de última generación y proponiendo un pipeline de "LLM-como-Juez" para una atribución escalable de fallos.

27
RESEARCHarXiv CS.LG·hace 8d

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Esta investigación introduce LongDS, un nuevo benchmark para evaluar agentes de IA en tareas de análisis de datos de largo horizonte y múltiples turnos, compuesto por 68 tareas de notebooks reales de Kaggle. Revela que los modelos de vanguardia alcanzan solo un 48,45% de precisión, con una caída significativa del rendimiento en turnos posteriores, destacando un fallo crítico en el seguimiento del contexto analítico evolutivo.

27