professional tasks — artigos, notícias e pesquisas de IA

RESEARCHDEV.to AI·26/04/2026

GPT-5.4 Fails Client-Ready Test: 0% Pass Rate in Banking Benchmark

Um novo benchmark, BankerToolBench, revelou que os principais modelos de IA como GPT-5.4 e Claude Opus 4.6 falharam em produzir trabalho pronto para clientes em tarefas de banqueiros de investimento júnior. Apesar de liderar entre os modelos, o GPT-5.4 ainda não atendeu a quase metade dos critérios, indicando limitações significativas em aplicações profissionais complexas.

AI limitations Financial services professional tasks Benchmarking