RESEARCHDEV.to AI·26/04/2026
GPT-5.4 Fails Client-Ready Test: 0% Pass Rate in Banking Benchmark
Um novo benchmark, BankerToolBench, revelou que os principais modelos de IA como GPT-5.4 e Claude Opus 4.6 falharam em produzir trabalho pronto para clientes em tarefas de banqueiros de investimento júnior. Apesar de liderar entre os modelos, o GPT-5.4 ainda não atendeu a quase metade dos critérios, indicando limitações significativas em aplicações profissionais complexas.
27