performance evaluation

6 items

RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

ClawBench é um novo benchmark que avalia agentes de navegador de IA em 153 tarefas cotidianas em 144 sites reais. Os resultados mostram que o melhor modelo (Claude Sonnet 4.6) atinge apenas 33,3% de sucesso, indicando um longo caminho a percorrer para a IA na automação de tarefas online.

performance evaluation Benchmarking browser agents online tasks

RESEARCHarXiv CS.AI·04/05/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

TokenArena é introduzido como um benchmark contínuo que mede a inferência de IA na granularidade do endpoint em cinco eixos principais. Ele sintetiza velocidade de saída, tempo para o primeiro token, preço, contexto efetivo e qualidade, juntamente com estimativas de energia, em compósitos como joules e dólares por resposta correta e fidelidade do endpoint.

AI models Energy Efficiency performance evaluation Benchmarking

RESEARCHarXiv CS.AI·21/04/2026

Agentic Frameworks for Reasoning Tasks: An Empirical Study

Este estudo empírico avalia 22 frameworks agentic em três benchmarks de raciocínio (BBH, GSM8K, ARC) para comparar seu desempenho, eficiência e adequação prática. Os resultados mostram que 19 frameworks completaram todas as tarefas, com 12 demonstrando desempenho estável com 74,6-75,9% de precisão, tempo de execução de 4-6 segundos e custo de 0,14-0,18 centavos por tarefa.

AI frameworks performance evaluation Benchmarking AI agents

RESEARCHarXiv CS.LG·30/04/2026

Correcting Performance Estimation Bias in Imbalanced Classification with Minority Subconcepts

Esta pesquisa aborda o viés na estimativa de desempenho para classificação desequilibrada, especialmente em relação a subconceitos minoritários dentro das classes. Ela introduz uma nova métrica de avaliação prática ponderada por utilidade, a acurácia balanceada ponderada por predição (pBA), que utiliza probabilidades posteriores previstas para corrigir este viés e fornecer uma avaliação mais precisa.

imbalanced-classification bias-correction machine-learning-metrics subconcept-analysis

RESEARCHarXiv CS.AI·06/05/2026

Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

Esta pesquisa introduz o Terminus-4B, um modelo de linguagem pequeno ajustado, para explorar sua capacidade de substituir LLMs de fronteira em tarefas de execução de terminal agêntico. O modelo é pós-treinado usando SFT e RL com recompensas baseadas em rubricas de LLM como juiz.

LLMs model training performance evaluation Small Language Models

RESEARCHDEV.to AI·18d atrás

Performance Comparisons of Routing Protocols in Mobile Ad Hoc Networks

Este conteúdo compara vários protocolos de roteamento em Redes Móveis Ad Hoc (MANETs). Provavelmente analisa suas métricas de desempenho sob diferentes condições de rede para identificar soluções ideais.

Routing Protocols Networking MANETs Wireless Communication