RESEARCH27

Agentic Frameworks for Reasoning Tasks: An Empirical Study

arXiv CS.AI·21 de abril de 2026

Este estudio empírico evalúa 22 frameworks de agentes en tres benchmarks de razonamiento (BBH, GSM8K, ARC) para comparar su rendimiento, eficiencia y idoneidad práctica. Los resultados indican que 19 frameworks completaron todas las tareas, con 12 demostrando un rendimiento estable con 74,6-75,9% de precisión, 4-6 segundos de tiempo de ejecución y un coste de 0,14-0,18 centavos por tarea.

AI frameworks performance evaluation benchmarking AI agents

Leer original ↗