RESEARCH27
LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis
arXiv CS.LG·1 de junio de 2026
Esta investigación introduce LongDS, un nuevo benchmark para evaluar agentes de IA en tareas de análisis de datos de largo horizonte y múltiples turnos, compuesto por 68 tareas de notebooks reales de Kaggle. Revela que los modelos de vanguardia alcanzan solo un 48,45% de precisión, con una caída significativa del rendimiento en turnos posteriores, destacando un fallo crítico en el seguimiento del contexto analítico evolutivo.
Leer original ↗