RESEARCH27

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

DEV.to AI·21. April 2026

Forscher haben KWBench eingeführt, einen 223-Aufgaben umfassenden Benchmark, der misst, ob LLMs spieltheoretische Probleme in beruflichen Szenarien unaufgefordert erkennen können. Das beste Modell bestand nur 27,9% der Aufgaben, was eine kritische Lücke zwischen Aufgabenlösung und situativem Verständnis aufzeigt.

LLMs Benchmarks AI evaluation

Original lesen ↗