RESEARCH27
Agentic Frameworks for Reasoning Tasks: An Empirical Study
arXiv CS.AI·21 avril 2026
Cette étude empirique évalue 22 frameworks d'agents sur trois benchmarks de raisonnement (BBH, GSM8K, ARC) pour comparer leurs performances, efficacité et pertinence pratique. Les résultats montrent que 19 frameworks ont complété toutes les tâches, avec 12 démontrant des performances stables à 74,6-75,9% de précision, un temps d'exécution de 4-6 secondes et un coût de 0,14-0,18 centimes par tâche.
Lire l'original ↗