One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]
O autor expressa frustração com o fato de que o desempenho de benchmarks muitas vezes não prevê o sucesso de um fluxo de trabalho de IA em produção real. Isso se deve a fatores como intenção ambígua do usuário e contextos confusos, sugerindo que a avaliação ainda prioriza a otimização de tarefas limpas em vez da robustez comportamental.
