SWE-Bench-Pro — articles, actualités et recherches IA

ARTICLEDEV.to AI·il y a 11j

I tracked Claude Code and Codex pass-rates for 95 days — what "getting dumber" actually looks like

Cet article suit les taux de réussite quotidiens de SWE-Bench-Pro pour Claude Code et Codex sur 95 jours, démystifiant l'idée que les modèles "deviennent plus bêtes" avec des données. Il révèle une amélioration significative de 11 points de pourcentage dans l'exécution des tâches d'Opus 4.6 (54%) à Opus 4.7 (65%), démontrant l'amélioration matérielle du modèle.

AI models performance tracking SWE-Bench-Pro Claude Code