RESEARCH27

GPT-5.4 Fails Client-Ready Test: 0% Pass Rate in Banking Benchmark

DEV.to AI·26 de abril de 2026

Un nuevo benchmark, BankerToolBench, reveló que los principales modelos de IA como GPT-5.4 y Claude Opus 4.6 no lograron producir trabajo listo para el cliente en tareas de banca de inversión junior. A pesar de liderar entre los modelos, GPT-5.4 aún falló en casi la mitad de los criterios, lo que indica limitaciones significativas en aplicaciones profesionales complejas.

AI limitations Financial services professional tasks Benchmarking Generative AI

Leer original ↗