performance evaluation

6 items

RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

ClawBench est un nouveau benchmark qui évalue les agents de navigation IA sur 153 tâches quotidiennes à travers 144 sites web réels. Les résultats clés montrent que le meilleur modèle (Claude Sonnet 4.6) n'atteint qu'un taux de réussite de 33,3%, indiquant un long chemin à parcourir pour l'IA dans l'automatisation des tâches en ligne.

performance evaluation Benchmarking browser agents online tasks

RESEARCHarXiv CS.AI·04/05/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

TokenArena est introduit comme un benchmark continu qui mesure l'inférence d'IA à la granularité du point de terminaison selon cinq axes principaux. Il synthétise la vitesse de sortie, le temps jusqu'au premier token, le prix, le contexte effectif et la qualité, ainsi que des estimations d'énergie, en composites tels que les joules et les dollars par réponse correcte et la fidélité du point de terminaison.

AI models Energy Efficiency performance evaluation Benchmarking

RESEARCHarXiv CS.AI·21/04/2026

Agentic Frameworks for Reasoning Tasks: An Empirical Study

Cette étude empirique évalue 22 frameworks d'agents sur trois benchmarks de raisonnement (BBH, GSM8K, ARC) pour comparer leurs performances, efficacité et pertinence pratique. Les résultats montrent que 19 frameworks ont complété toutes les tâches, avec 12 démontrant des performances stables à 74,6-75,9% de précision, un temps d'exécution de 4-6 secondes et un coût de 0,14-0,18 centimes par tâche.

AI frameworks performance evaluation Benchmarking AI agents

RESEARCHarXiv CS.LG·30/04/2026

Correcting Performance Estimation Bias in Imbalanced Classification with Minority Subconcepts

Cette recherche aborde le biais dans l'estimation des performances pour la classification déséquilibrée, notamment en ce qui concerne les sous-concepts minoritaires au sein des classes. Elle introduit une nouvelle métrique d'évaluation pratique pondérée par l'utilité, la précision équilibrée pondérée par prédiction (pBA), qui utilise des probabilités postérieures prédites pour corriger ce biais et offrir une évaluation plus juste.

imbalanced-classification bias-correction machine-learning-metrics subconcept-analysis

RESEARCHarXiv CS.AI·06/05/2026

Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

Cette recherche présente Terminus-4B, un petit modèle linguistique affiné, pour étudier sa capacité à remplacer les LLM de pointe dans les tâches d'exécution terminale agentique. Le modèle est post-entraîné en utilisant SFT et RL avec des récompenses basées sur une grille d'évaluation LLM-en-tant-que-juge.

LLMs model training performance evaluation Small Language Models

RESEARCHDEV.to AI·il y a 18j

Performance Comparisons of Routing Protocols in Mobile Ad Hoc Networks

Ce contenu compare divers protocoles de routage dans les Réseaux Mobiles Ad Hoc (MANETs). Il analyse probablement leurs métriques de performance dans différentes conditions de réseau afin d'identifier les solutions optimales.

Routing Protocols Networking MANETs Wireless Communication