ARTICLE28
The Benchmark Is Not the Behavior
DEV.to AI·12 de abril de 2026
Uma equipe da UC Berkeley demonstrou como explorar falhas em oito benchmarks de agentes de IA, manipulando os métodos de avaliação em vez de construir agentes melhores. Isso expôs que os benchmarks dependem de um "sistema de honra" vulnerável a manipulação, levantando sérias questões sobre a integridade da avaliação de IA.
AI benchmarksresearch integrityAI evaluation
Ler original ↗