RESEARCH27

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

DEV.to AI·21 avril 2026

Des chercheurs ont introduit KWBench, un benchmark de 223 tâches pour mesurer la capacité des LLM à reconnaître les problèmes fondamentaux dans des scénarios professionnels sans être guidés. Le meilleur modèle n'a réussi que 27,9% des tâches, soulignant une lacune critique entre l'exécution des tâches et la compréhension situationnelle.

LLMs Benchmarks AI evaluation

Lire l'original ↗