RESEARCH27

Agentic Frameworks for Reasoning Tasks: An Empirical Study

arXiv CS.AI·21. April 2026

Diese empirische Studie bewertet 22 agentische Frameworks anhand von drei Reasoning-Benchmarks (BBH, GSM8K, ARC), um deren Leistung, Effizienz und praktische Eignung zu vergleichen. Die Ergebnisse zeigen, dass 19 Frameworks alle Aufgaben abschlossen, wobei 12 eine stabile Leistung mit 74,6-75,9 % Genauigkeit, 4-6 Sekunden Ausführungszeit und 0,14-0,18 Cent pro Aufgabe Kosten aufwiesen.

AI frameworks performance evaluation benchmarking AI agents

Original lesen ↗