RESEARCH27
GPT-5.4 Fails Client-Ready Test: 0% Pass Rate in Banking Benchmark
DEV.to AI·26 de abril de 2026
Un nuevo benchmark, BankerToolBench, reveló que los principales modelos de IA como GPT-5.4 y Claude Opus 4.6 no lograron producir trabajo listo para el cliente en tareas de banca de inversión junior. A pesar de liderar entre los modelos, GPT-5.4 aún falló en casi la mitad de los criterios, lo que indica limitaciones significativas en aplicaciones profesionales complejas.
Leer original ↗