Long-horizon tasks

3 items

RESEARCHarXiv CS.AI·il y a 20j

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

DecisionBench est introduit comme une nouvelle référence pour la délégation émergente dans les workflows agentiques à long terme. Il comprend une suite de tâches fixe, un pool de modèles pairs et une suite de métriques multi-axes pour évaluer la qualité et le coût de la délégation.

Long-horizon tasks workflow automation Benchmarking delegation

RESEARCHarXiv CS.AI·15/04/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Cette recherche s'intéresse à la défaillance des agents LLM dans les tâches à long horizon, qui nécessitent des séquences d'actions étendues et interdépendantes. Elle présente HORIZON, un benchmark de diagnostic inter-domaines pour construire des tâches et analyser les comportements de défaillance, évaluant les agents de pointe et proposant un pipeline "LLM-as-a-Judge" pour une attribution d'échecs évolutive.

Agentic Systems Long-horizon tasks LLM Agents failure diagnosis

RESEARCHarXiv CS.LG·il y a 8j

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Cette recherche présente LongDS, un nouveau benchmark pour évaluer les agents d'IA dans des tâches d'analyse de données à long terme et multi-tours, comprenant 68 tâches issues de notebooks Kaggle réels. Il révèle que les modèles de pointe n'atteignent qu'une précision moyenne de 48,45%, avec une baisse significative des performances dans les tours ultérieurs, soulignant une défaillance critique dans le suivi du contexte analytique évolutif.

Long-horizon tasks Kaggle AI Benchmarks data analysis