RESEARCH27

GPT-5.4 Fails Client-Ready Test: 0% Pass Rate in Banking Benchmark

DEV.to AI·26. April 2026

Ein neuer Benchmark, BankerToolBench, zeigte, dass Top-KI-Modelle wie GPT-5.4 und Claude Opus 4.6 keine kundenfertigen Ergebnisse für Junior-Investmentbanker-Aufgaben lieferten. Obwohl GPT-5.4 unter den Modellen führte, scheiterte es immer noch an fast der Hälfte der Kriterien, was erhebliche Einschränkungen bei komplexen professionellen Anwendungen aufzeigt.

AI limitations Financial services professional tasks Benchmarking Generative AI

Original lesen ↗