RESEARCH27
AI agent logs expose reproducibility gaps
DEV.to AI·7 mai 2026
Les journaux des agents IA révèlent d'importantes lacunes en matière de reproductibilité, où les agents autonomes peuvent passer du succès à l'échec de manière significative, surtout dans les tâches de navigation web. Des recherches, y compris le corpus SWE-chat, montrent que moins de la moitié du code produit par les agents est intégré dans les commits des utilisateurs, soulignant un écart critique entre les scores de référence et la fiabilité réelle.
Lire l'original ↗