performance evaluation

6 items

RESEARCH↑ trendingReddit r/MachineLearning·14/4/2026

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

ClawBench es un nuevo benchmark que evalúa agentes de navegador de IA en 153 tareas cotidianas en 144 sitios web reales. Los hallazgos clave muestran que el mejor modelo (Claude Sonnet 4.6) logra solo un 33.3% de éxito, señalando un largo camino por recorrer para la IA en la automatización de tareas en línea.

performance evaluation Benchmarking browser agents online tasks

RESEARCHarXiv CS.AI·4/5/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

Se presenta TokenArena como un benchmark continuo que mide la inferencia de IA a nivel de endpoint en cinco ejes principales. Sintetiza la velocidad de salida, el tiempo hasta el primer token, el precio, el contexto efectivo y la calidad, junto con estimaciones de energía, en compuestos como julios y dólares por respuesta correcta y fidelidad del endpoint.

AI models Energy Efficiency performance evaluation Benchmarking

RESEARCHarXiv CS.AI·21/4/2026

Agentic Frameworks for Reasoning Tasks: An Empirical Study

Este estudio empírico evalúa 22 frameworks de agentes en tres benchmarks de razonamiento (BBH, GSM8K, ARC) para comparar su rendimiento, eficiencia y idoneidad práctica. Los resultados indican que 19 frameworks completaron todas las tareas, con 12 demostrando un rendimiento estable con 74,6-75,9% de precisión, 4-6 segundos de tiempo de ejecución y un coste de 0,14-0,18 centavos por tarea.

AI frameworks performance evaluation Benchmarking AI agents

RESEARCHarXiv CS.LG·30/4/2026

Correcting Performance Estimation Bias in Imbalanced Classification with Minority Subconcepts

Esta investigación aborda el sesgo en la estimación del rendimiento para la clasificación desequilibrada, particularmente en relación con los subconceptos minoritarios dentro de las clases. Introduce una nueva métrica de evaluación práctica ponderada por utilidad, la precisión equilibrada ponderada por predicción (pBA), que utiliza probabilidades posteriores predichas para corregir este sesgo y proporcionar una evaluación más precisa.

imbalanced-classification bias-correction machine-learning-metrics subconcept-analysis

RESEARCHarXiv CS.AI·6/5/2026

Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

Esta investigación presenta Terminus-4B, un modelo de lenguaje pequeño ajustado, para explorar su capacidad de reemplazar LLMs de frontera en tareas de ejecución de terminal agéntico. El modelo es post-entrenado usando SFT y RL con recompensas basadas en rúbricas de LLM como juez.

LLMs model training performance evaluation Small Language Models

RESEARCHDEV.to AI·hace 18d

Performance Comparisons of Routing Protocols in Mobile Ad Hoc Networks

Este contenido compara varios protocolos de enrutamiento en Redes Móviles Ad Hoc (MANETs). Probablemente analiza sus métricas de rendimiento bajo diferentes condiciones de red para identificar soluciones óptimas.

Routing Protocols Networking MANETs Wireless Communication