ARTICLE28

I tracked Claude Code and Codex pass-rates for 95 days — what "getting dumber" actually looks like

DEV.to AI·30 de maio de 2026

Este artigo monitoriza as taxas de sucesso diárias do SWE-Bench-Pro para Claude Code e Codex durante 95 dias, desmistificando a ideia de que os modelos estão "a ficar mais burros" com dados. Revela uma melhoria significativa de 11 pontos percentuais na conclusão de tarefas do Opus 4.6 (54%) para o Opus 4.7 (65%), demonstrando a melhoria material do modelo.

AI models performance tracking SWE-Bench-Pro Claude Code Codex

Ler original ↗