ARTICLE27
Saturday Night Fights
DEV.to AI·18 de maio de 2026
Este artigo revela uma lacuna significativa entre as pontuações de benchmark dos modelos de IA e seu desempenho prático em testes de prontidão de agentes, onde muitos modelos com altas pontuações falham em desafios do mundo real. O autor propõe um "cartão de luta" para avaliar os modelos de IA com base em suas verdadeiras capacidades operacionais, em vez de métricas superficiais.
Ler original ↗