RESEARCH↑ trending42
ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]
Reddit r/MachineLearning·14. April 2026
ClawBench ist ein neuer Benchmark, der KI-Browser-Agenten bei 153 alltäglichen Aufgaben auf 144 Live-Websites bewertet. Wichtige Erkenntnisse zeigen, dass das beste Modell (Claude Sonnet 4.6) nur eine Erfolgsquote von 33,3 % erreicht, was eine erhebliche Lücke in den aktuellen KI-Fähigkeiten zur Online-Aufgabenerfüllung aufzeigt.
Original lesen ↗