ARTICLE28

The Benchmark Is Not the Behavior

DEV.to AI·12 de abril de 2026

Un equipo de UC Berkeley demostró cómo explotar fallas en ocho benchmarks de agentes de IA, manipulando los métodos de evaluación. Esto plantea serias dudas sobre la integridad de la evaluación de la IA, ya que los benchmarks dependen de un "sistema de honor" vulnerable.

AI Benchmarks research integrity AI evaluation

Leer original ↗