professional tasks — KI-Artikel, Nachrichten & Forschung

RESEARCHDEV.to AI·4/26/2026

GPT-5.4 Fails Client-Ready Test: 0% Pass Rate in Banking Benchmark

Ein neuer Benchmark, BankerToolBench, zeigte, dass Top-KI-Modelle wie GPT-5.4 und Claude Opus 4.6 keine kundenfertigen Ergebnisse für Junior-Investmentbanker-Aufgaben lieferten. Obwohl GPT-5.4 unter den Modellen führte, scheiterte es immer noch an fast der Hälfte der Kriterien, was erhebliche Einschränkungen bei komplexen professionellen Anwendungen aufzeigt.

AI limitations Financial services professional tasks Benchmarking