RESEARCH↑ trending42

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

Reddit r/MachineLearning·14 de abril de 2026

ClawBench é um novo benchmark que avalia agentes de navegador de IA em 153 tarefas cotidianas em 144 sites reais. Os resultados mostram que o melhor modelo (Claude Sonnet 4.6) atinge apenas 33,3% de sucesso, indicando um longo caminho a percorrer para a IA na automação de tarefas online.

performance evaluation Benchmarking browser agents online tasks AI agents

Ler original ↗