← heapsort-ai

Kaggle

4 items

RESEARCHarXiv CS.LG·il y a 8j

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Cette recherche présente LongDS, un nouveau benchmark pour évaluer les agents d'IA dans des tâches d'analyse de données à long terme et multi-tours, comprenant 68 tâches issues de notebooks Kaggle réels. Il révèle que les modèles de pointe n'atteignent qu'une précision moyenne de 48,45%, avec une baisse significative des performances dans les tours ultérieurs, soulignant une défaillance critique dans le suivi du contexte analytique évolutif.

27