← heapsort-ai

Long-horizon tasks

3 items

RESEARCHarXiv CS.AI·15/04/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Cette recherche s'intéresse à la défaillance des agents LLM dans les tâches à long horizon, qui nécessitent des séquences d'actions étendues et interdépendantes. Elle présente HORIZON, un benchmark de diagnostic inter-domaines pour construire des tâches et analyser les comportements de défaillance, évaluant les agents de pointe et proposant un pipeline "LLM-as-a-Judge" pour une attribution d'échecs évolutive.

27
RESEARCHarXiv CS.LG·il y a 8j

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Cette recherche présente LongDS, un nouveau benchmark pour évaluer les agents d'IA dans des tâches d'analyse de données à long terme et multi-tours, comprenant 68 tâches issues de notebooks Kaggle réels. Il révèle que les modèles de pointe n'atteignent qu'une précision moyenne de 48,45%, avec une baisse significative des performances dans les tours ultérieurs, soulignant une défaillance critique dans le suivi du contexte analytique évolutif.

27