ARTICLE28
The Benchmark Is Not the Behavior
DEV.to AI·12 de abril de 2026
Un equipo de UC Berkeley demostró cómo explotar fallas en ocho benchmarks de agentes de IA, manipulando los métodos de evaluación. Esto plantea serias dudas sobre la integridad de la evaluación de la IA, ya que los benchmarks dependen de un "sistema de honor" vulnerable.
Leer original ↗