RESEARCH27
LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis
arXiv CS.LG·1 juin 2026
Cette recherche présente LongDS, un nouveau benchmark pour évaluer les agents d'IA dans des tâches d'analyse de données à long terme et multi-tours, comprenant 68 tâches issues de notebooks Kaggle réels. Il révèle que les modèles de pointe n'atteignent qu'une précision moyenne de 48,45%, avec une baisse significative des performances dans les tours ultérieurs, soulignant une défaillance critique dans le suivi du contexte analytique évolutif.
Lire l'original ↗