RESEARCHDEV.to AI·4/26/2026
GPT-5.4 Fails Client-Ready Test: 0% Pass Rate in Banking Benchmark
Ein neuer Benchmark, BankerToolBench, zeigte, dass Top-KI-Modelle wie GPT-5.4 und Claude Opus 4.6 keine kundenfertigen Ergebnisse für Junior-Investmentbanker-Aufgaben lieferten. Obwohl GPT-5.4 unter den Modellen führte, scheiterte es immer noch an fast der Hälfte der Kriterien, was erhebliche Einschränkungen bei komplexen professionellen Anwendungen aufzeigt.
27