RESEARCH27
KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition
DEV.to AI·21 avril 2026
Des chercheurs ont introduit KWBench, un benchmark de 223 tâches pour mesurer la capacité des LLM à reconnaître les problèmes fondamentaux dans des scénarios professionnels sans être guidés. Le meilleur modèle n'a réussi que 27,9% des tâches, soulignant une lacune critique entre l'exécution des tâches et la compréhension situationnelle.
Lire l'original ↗