RESEARCH27
GPT-5.4 Fails Client-Ready Test: 0% Pass Rate in Banking Benchmark
DEV.to AI·26 avril 2026
Un nouveau benchmark, BankerToolBench, a révélé que les meilleurs modèles d'IA comme GPT-5.4 et Claude Opus 4.6 n'ont pas réussi à produire un travail prêt pour le client pour les tâches de banquier d'investissement junior. Bien que le GPT-5.4 ait été en tête des modèles, il n'a toujours pas satisfait près de la moitié des critères, indiquant des limitations significatives dans les applications professionnelles complexes.
Lire l'original ↗