online tasks — articles, actualités et recherches IA

RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

ClawBench est un nouveau benchmark qui évalue les agents de navigation IA sur 153 tâches quotidiennes à travers 144 sites web réels. Les résultats clés montrent que le meilleur modèle (Claude Sonnet 4.6) n'atteint qu'un taux de réussite de 33,3%, indiquant un long chemin à parcourir pour l'IA dans l'automatisation des tâches en ligne.

performance evaluation Benchmarking browser agents online tasks