RESEARCH27

GPT-5.4 Fails Client-Ready Test: 0% Pass Rate in Banking Benchmark

DEV.to AI·26 avril 2026

Un nouveau benchmark, BankerToolBench, a révélé que les meilleurs modèles d'IA comme GPT-5.4 et Claude Opus 4.6 n'ont pas réussi à produire un travail prêt pour le client pour les tâches de banquier d'investissement junior. Bien que le GPT-5.4 ait été en tête des modèles, il n'a toujours pas satisfait près de la moitié des critères, indiquant des limitations significatives dans les applications professionnelles complexes.

AI limitations Financial services professional tasks Benchmarking Generative AI

Lire l'original ↗