RESEARCH27

Agentic Frameworks for Reasoning Tasks: An Empirical Study

arXiv CS.AI·21 avril 2026

Cette étude empirique évalue 22 frameworks d'agents sur trois benchmarks de raisonnement (BBH, GSM8K, ARC) pour comparer leurs performances, efficacité et pertinence pratique. Les résultats montrent que 19 frameworks ont complété toutes les tâches, avec 12 démontrant des performances stables à 74,6-75,9% de précision, un temps d'exécution de 4-6 secondes et un coût de 0,14-0,18 centimes par tâche.

AI frameworks performance evaluation Benchmarking AI agents

Lire l'original ↗