performance tracking — artículos, noticias e investigación de IA

ARTICLEDEV.to AI·hace 10d

I tracked Claude Code and Codex pass-rates for 95 days — what "getting dumber" actually looks like

Este artículo rastrea las tasas de aprobación diarias de SWE-Bench-Pro para Claude Code y Codex durante 95 días, desmintiendo el mito de que los modelos están "volviéndose más tontos" con datos. Revela una mejora significativa de 11 puntos porcentuales en la finalización de tareas de Opus 4.6 (54%) a Opus 4.7 (65%), demostrando la mejora material del modelo.

AI models performance tracking SWE-Bench-Pro Claude Code