← heapsort-ai

real-world AI

4 items

ARTICLE↑ trendingReddit r/MachineLearning·18d atrás

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

O autor expressa frustração com o fato de que o desempenho de benchmarks muitas vezes não prevê o sucesso de um fluxo de trabalho de IA em produção real. Isso se deve a fatores como intenção ambígua do usuário e contextos confusos, sugerindo que a avaliação ainda prioriza a otimização de tarefas limpas em vez da robustez comportamental.

41