RESEARCH↑ trending42

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

Reddit r/MachineLearning·14 avril 2026

ClawBench est un nouveau benchmark qui évalue les agents de navigation IA sur 153 tâches quotidiennes à travers 144 sites web réels. Les résultats clés montrent que le meilleur modèle (Claude Sonnet 4.6) n'atteint qu'un taux de réussite de 33,3%, indiquant un long chemin à parcourir pour l'IA dans l'automatisation des tâches en ligne.

performance evaluation benchmarking browser agents online tasks AI agents

Lire l'original ↗