Long-horizon tasks

3 items

RESEARCHarXiv CS.AI·20d atrás

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

DecisionBench é apresentado como um novo benchmark para a delegação emergente em fluxos de trabalho agenticos de longo prazo. Ele inclui um conjunto fixo de tarefas, um pool de modelos e uma suíte de métricas multi-eixo para avaliar a qualidade e o custo da delegação.

Long-horizon tasks workflow automation Benchmarking delegation

RESEARCHarXiv CS.AI·15/04/2026

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Esta pesquisa aborda a falha de agentes LLM em tarefas de longo horizonte, que exigem sequências de ações extensas e interdependentes. O estudo introduz HORIZON, um benchmark de diagnóstico entre domínios para construir tarefas e analisar falhas, avaliando agentes de ponta e propondo um pipeline "LLM-como-Juiz" para atribuição escalável de falhas.

Agentic Systems Long-horizon tasks LLM Agents failure diagnosis

RESEARCHarXiv CS.LG·8d atrás

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Esta pesquisa apresenta o LongDS, um novo benchmark para avaliar agentes de IA em tarefas de análise de dados de longo horizonte e múltiplas etapas, contendo 68 tarefas de notebooks Kaggle reais. Revela que os modelos de ponta atingem apenas 48,45% de precisão, com o desempenho caindo significativamente nas etapas posteriores, destacando uma falha crítica no acompanhamento do contexto analítico em evolução.

Long-horizon tasks Kaggle AI Benchmarks data analysis