← heapsort-ai

performance evaluation

6 items

RESEARCH↑ trendingReddit r/MachineLearning·14/4/2026

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

ClawBench es un nuevo benchmark que evalúa agentes de navegador de IA en 153 tareas cotidianas en 144 sitios web reales. Los hallazgos clave muestran que el mejor modelo (Claude Sonnet 4.6) logra solo un 33.3% de éxito, señalando un largo camino por recorrer para la IA en la automatización de tareas en línea.

42
RESEARCHarXiv CS.AI·4/5/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

Se presenta TokenArena como un benchmark continuo que mide la inferencia de IA a nivel de endpoint en cinco ejes principales. Sintetiza la velocidad de salida, el tiempo hasta el primer token, el precio, el contexto efectivo y la calidad, junto con estimaciones de energía, en compuestos como julios y dólares por respuesta correcta y fidelidad del endpoint.

27
RESEARCHarXiv CS.AI·21/4/2026

Agentic Frameworks for Reasoning Tasks: An Empirical Study

Este estudio empírico evalúa 22 frameworks de agentes en tres benchmarks de razonamiento (BBH, GSM8K, ARC) para comparar su rendimiento, eficiencia y idoneidad práctica. Los resultados indican que 19 frameworks completaron todas las tareas, con 12 demostrando un rendimiento estable con 74,6-75,9% de precisión, 4-6 segundos de tiempo de ejecución y un coste de 0,14-0,18 centavos por tarea.

27
RESEARCHarXiv CS.LG·30/4/2026

Correcting Performance Estimation Bias in Imbalanced Classification with Minority Subconcepts

Esta investigación aborda el sesgo en la estimación del rendimiento para la clasificación desequilibrada, particularmente en relación con los subconceptos minoritarios dentro de las clases. Introduce una nueva métrica de evaluación práctica ponderada por utilidad, la precisión equilibrada ponderada por predicción (pBA), que utiliza probabilidades posteriores predichas para corregir este sesgo y proporcionar una evaluación más precisa.

27