RESEARCH27
KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition
DEV.to AI·21. April 2026
Forscher haben KWBench eingeführt, einen 223-Aufgaben umfassenden Benchmark, der misst, ob LLMs spieltheoretische Probleme in beruflichen Szenarien unaufgefordert erkennen können. Das beste Modell bestand nur 27,9% der Aufgaben, was eine kritische Lücke zwischen Aufgabenlösung und situativem Verständnis aufzeigt.
Original lesen ↗