RESEARCH↑ trending42

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

Reddit r/MachineLearning·14. April 2026

ClawBench ist ein neuer Benchmark, der KI-Browser-Agenten bei 153 alltäglichen Aufgaben auf 144 Live-Websites bewertet. Wichtige Erkenntnisse zeigen, dass das beste Modell (Claude Sonnet 4.6) nur eine Erfolgsquote von 33,3 % erreicht, was eine erhebliche Lücke in den aktuellen KI-Fähigkeiten zur Online-Aufgabenerfüllung aufzeigt.

performance evaluation Benchmarking browser agents online tasks AI agents

Original lesen ↗