← heapsort-ai

performance evaluation

6 items

RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

ClawBench é um novo benchmark que avalia agentes de navegador de IA em 153 tarefas cotidianas em 144 sites reais. Os resultados mostram que o melhor modelo (Claude Sonnet 4.6) atinge apenas 33,3% de sucesso, indicando um longo caminho a percorrer para a IA na automação de tarefas online.

42
RESEARCHarXiv CS.AI·04/05/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

TokenArena é introduzido como um benchmark contínuo que mede a inferência de IA na granularidade do endpoint em cinco eixos principais. Ele sintetiza velocidade de saída, tempo para o primeiro token, preço, contexto efetivo e qualidade, juntamente com estimativas de energia, em compósitos como joules e dólares por resposta correta e fidelidade do endpoint.

27
RESEARCHarXiv CS.AI·21/04/2026

Agentic Frameworks for Reasoning Tasks: An Empirical Study

Este estudo empírico avalia 22 frameworks agentic em três benchmarks de raciocínio (BBH, GSM8K, ARC) para comparar seu desempenho, eficiência e adequação prática. Os resultados mostram que 19 frameworks completaram todas as tarefas, com 12 demonstrando desempenho estável com 74,6-75,9% de precisão, tempo de execução de 4-6 segundos e custo de 0,14-0,18 centavos por tarefa.

27
RESEARCHarXiv CS.LG·30/04/2026

Correcting Performance Estimation Bias in Imbalanced Classification with Minority Subconcepts

Esta pesquisa aborda o viés na estimativa de desempenho para classificação desequilibrada, especialmente em relação a subconceitos minoritários dentro das classes. Ela introduz uma nova métrica de avaliação prática ponderada por utilidade, a acurácia balanceada ponderada por predição (pBA), que utiliza probabilidades posteriores previstas para corrigir este viés e fornecer uma avaliação mais precisa.

27