RESEARCH27

Agentic Frameworks for Reasoning Tasks: An Empirical Study

arXiv CS.AI·21 de abril de 2026

Este estudo empírico avalia 22 frameworks agentic em três benchmarks de raciocínio (BBH, GSM8K, ARC) para comparar seu desempenho, eficiência e adequação prática. Os resultados mostram que 19 frameworks completaram todas as tarefas, com 12 demonstrando desempenho estável com 74,6-75,9% de precisão, tempo de execução de 4-6 segundos e custo de 0,14-0,18 centavos por tarefa.

AI frameworks performance evaluation Benchmarking AI agents

Ler original ↗