← heapsort-ai

performance evaluation

6 items

RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

ClawBench est un nouveau benchmark qui évalue les agents de navigation IA sur 153 tâches quotidiennes à travers 144 sites web réels. Les résultats clés montrent que le meilleur modèle (Claude Sonnet 4.6) n'atteint qu'un taux de réussite de 33,3%, indiquant un long chemin à parcourir pour l'IA dans l'automatisation des tâches en ligne.

42
RESEARCHarXiv CS.AI·04/05/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

TokenArena est introduit comme un benchmark continu qui mesure l'inférence d'IA à la granularité du point de terminaison selon cinq axes principaux. Il synthétise la vitesse de sortie, le temps jusqu'au premier token, le prix, le contexte effectif et la qualité, ainsi que des estimations d'énergie, en composites tels que les joules et les dollars par réponse correcte et la fidélité du point de terminaison.

27
RESEARCHarXiv CS.AI·21/04/2026

Agentic Frameworks for Reasoning Tasks: An Empirical Study

Cette étude empirique évalue 22 frameworks d'agents sur trois benchmarks de raisonnement (BBH, GSM8K, ARC) pour comparer leurs performances, efficacité et pertinence pratique. Les résultats montrent que 19 frameworks ont complété toutes les tâches, avec 12 démontrant des performances stables à 74,6-75,9% de précision, un temps d'exécution de 4-6 secondes et un coût de 0,14-0,18 centimes par tâche.

27
RESEARCHarXiv CS.LG·30/04/2026

Correcting Performance Estimation Bias in Imbalanced Classification with Minority Subconcepts

Cette recherche aborde le biais dans l'estimation des performances pour la classification déséquilibrée, notamment en ce qui concerne les sous-concepts minoritaires au sein des classes. Elle introduit une nouvelle métrique d'évaluation pratique pondérée par l'utilité, la précision équilibrée pondérée par prédiction (pBA), qui utilise des probabilités postérieures prédites pour corriger ce biais et offrir une évaluation plus juste.

27