ARTICLE↑ trending41
One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]
Reddit r/MachineLearning·22 mai 2026
L'auteur exprime sa frustration que les performances des benchmarks ne prédisent souvent pas si un flux de travail d'IA survivra à une utilisation en production. Cela est dû à des facteurs tels que l'intention ambiguë de l'utilisateur et des contextes désordonnés, suggérant que l'évaluation privilégie toujours l'optimisation des tâches propres plutôt que la robustesse comportementale.
Lire l'original ↗