One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]
El autor expresa frustración porque el rendimiento de los benchmarks a menudo no predice si un flujo de trabajo de IA sobrevivirá al uso en producción. Esto se debe a factores como la intención ambigua del usuario y contextos desordenados, lo que sugiere que la evaluación aún prioriza la optimización de tareas limpias en lugar de la robustez conductual.
