ARTICLE28

The Benchmark Is Not the Behavior

DEV.to AI·12 de abril de 2026

Uma equipe da UC Berkeley demonstrou como explorar falhas em oito benchmarks de agentes de IA, manipulando os métodos de avaliação em vez de construir agentes melhores. Isso expôs que os benchmarks dependem de um "sistema de honra" vulnerável a manipulação, levantando sérias questões sobre a integridade da avaliação de IA.

AI benchmarksresearch integrityAI evaluation

Ler original ↗