RESEARCH27

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

arXiv CS.LG·1 de junho de 2026

Esta pesquisa apresenta o LongDS, um novo benchmark para avaliar agentes de IA em tarefas de análise de dados de longo horizonte e múltiplas etapas, contendo 68 tarefas de notebooks Kaggle reais. Revela que os modelos de ponta atingem apenas 48,45% de precisão, com o desempenho caindo significativamente nas etapas posteriores, destacando uma falha crítica no acompanhamento do contexto analítico em evolução.

Long-horizon tasks Kaggle AI Benchmarks data analysis AI agents

Ler original ↗