RESEARCH↑ trending42
ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]
Reddit r/MachineLearning·14 de abril de 2026
ClawBench é um novo benchmark que avalia agentes de navegador de IA em 153 tarefas cotidianas em 144 sites reais. Os resultados mostram que o melhor modelo (Claude Sonnet 4.6) atinge apenas 33,3% de sucesso, indicando um longo caminho a percorrer para a IA na automação de tarefas online.
Ler original ↗