RESEARCH27
LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis
arXiv CS.LG·1. Juni 2026
Diese Forschung stellt LongDS vor, einen neuen Benchmark zur Bewertung von KI-Agenten bei langfristigen, mehrstufigen Datenanalyseaufgaben, der 68 Aufgaben aus realen Kaggle-Notebooks umfasst. Es zeigt sich, dass die besten Modelle nur eine durchschnittliche Genauigkeit von 48,45% erreichen und die Leistung in späteren Phasen erheblich abfällt, was ein kritisches Versagen bei der Verfolgung des sich entwickelnden Analysekontexts hervorhebt.
Original lesen ↗