online tasks — artículos, noticias e investigación de IA

RESEARCH↑ trendingReddit r/MachineLearning·14/4/2026

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

ClawBench es un nuevo benchmark que evalúa agentes de navegador de IA en 153 tareas cotidianas en 144 sitios web reales. Los hallazgos clave muestran que el mejor modelo (Claude Sonnet 4.6) logra solo un 33.3% de éxito, señalando un largo camino por recorrer para la IA en la automatización de tareas en línea.

performance evaluation Benchmarking browser agents online tasks