RESEARCH↑ trending42
Confirmed: SWE Bench is now a benchmaxxed benchmark
Reddit r/LocalLLaMA·26 avril 2026

Le titre annonce que SWE Bench, un benchmark pour l'évaluation de l'IA en ingénierie logicielle, a été confirmé comme un benchmark « benchmaxxed ». Cela suggère qu'il a atteint un statut de grande pertinence ou de saturation dans le domaine.
Lire l'original ↗