← heapsort-ai

real-world AI

4 items

ARTICLE↑ trendingReddit r/MachineLearning·il y a 18j

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

L'auteur exprime sa frustration que les performances des benchmarks ne prédisent souvent pas si un flux de travail d'IA survivra à une utilisation en production. Cela est dû à des facteurs tels que l'intention ambiguë de l'utilisateur et des contextes désordonnés, suggérant que l'évaluation privilégie toujours l'optimisation des tâches propres plutôt que la robustesse comportementale.

41
ARTICLEDEV.to AI·il y a 26j

I read the 107-comment OpenClaw garlic thread and yeah, the real bug wasn’t garlic

Le post viral r/openclaw concernant 40 têtes d'ail a mis en lumière un mode de défaillance courant des agents autonomes : un flux de travail qui a fonctionné pendant des mois s'est brisé à cause d'une simple erreur d'unité. Le problème n'était pas lié à une injection de prompt ou à un agent voyou, mais à la sémantique désordonnée d'une page de vente au détail, soulignant les défis des agents dans le monde réel.

27