SWE-Bench-Pro — KI-Artikel, Nachrichten & Forschung

ARTICLEDEV.to AI·vor 10T

I tracked Claude Code and Codex pass-rates for 95 days — what "getting dumber" actually looks like

Dieser Artikel verfolgt die täglichen SWE-Bench-Pro-Erfolgsraten für Claude Code und Codex über 95 Tage und entlarvt den Mythos des "Verdummens" mit Daten. Er zeigt eine signifikante Verbesserung von 11 Prozentpunkten bei der Aufgabenerledigung von Opus 4.6 (54 %) auf Opus 4.7 (65 %), was eine materielle Verbesserung des Modells belegt.

AI models performance tracking SWE-Bench-Pro Claude Code