online tasks — KI-Artikel, Nachrichten & Forschung

RESEARCH↑ trendingReddit r/MachineLearning·4/14/2026

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

ClawBench ist ein neuer Benchmark, der KI-Browser-Agenten bei 153 alltäglichen Aufgaben auf 144 Live-Websites bewertet. Wichtige Erkenntnisse zeigen, dass das beste Modell (Claude Sonnet 4.6) nur eine Erfolgsquote von 33,3 % erreicht, was eine erhebliche Lücke in den aktuellen KI-Fähigkeiten zur Online-Aufgabenerfüllung aufzeigt.

performance evaluation Benchmarking browser agents online tasks