ARTICLE28

The Benchmark Is Not the Behavior

DEV.to AI·12 avril 2026

Une équipe de l'UC Berkeley a démontré comment exploiter des failles dans huit benchmarks d'agents IA en manipulant les méthodes d'évaluation. Cela soulève de sérieuses questions sur l'intégrité de l'évaluation de l'IA, car les benchmarks reposent sur un "système d'honneur" vulnérable.

AI Benchmarks research integrity AI evaluation

Lire l'original ↗