RESEARCH27

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

arXiv CS.LG·1 de junio de 2026

Esta investigación introduce LongDS, un nuevo benchmark para evaluar agentes de IA en tareas de análisis de datos de largo horizonte y múltiples turnos, compuesto por 68 tareas de notebooks reales de Kaggle. Revela que los modelos de vanguardia alcanzan solo un 48,45% de precisión, con una caída significativa del rendimiento en turnos posteriores, destacando un fallo crítico en el seguimiento del contexto analítico evolutivo.

Long-horizon tasks Kaggle AI Benchmarks data analysis AI agents

Leer original ↗