RESEARCH27

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

arXiv CS.LG·1 juin 2026

Cette recherche présente LongDS, un nouveau benchmark pour évaluer les agents d'IA dans des tâches d'analyse de données à long terme et multi-tours, comprenant 68 tâches issues de notebooks Kaggle réels. Il révèle que les modèles de pointe n'atteignent qu'une précision moyenne de 48,45%, avec une baisse significative des performances dans les tours ultérieurs, soulignant une défaillance critique dans le suivi du contexte analytique évolutif.

Long-horizon tasks Kaggle AI Benchmarks data analysis AI agents

Lire l'original ↗