RESEARCH27
Agentic Frameworks for Reasoning Tasks: An Empirical Study
arXiv CS.AI·21 de abril de 2026
Este estudio empírico evalúa 22 frameworks de agentes en tres benchmarks de razonamiento (BBH, GSM8K, ARC) para comparar su rendimiento, eficiencia y idoneidad práctica. Los resultados indican que 19 frameworks completaron todas las tareas, con 12 demostrando un rendimiento estable con 74,6-75,9% de precisión, 4-6 segundos de tiempo de ejecución y un coste de 0,14-0,18 centavos por tarea.
Leer original ↗