RESEARCH27
KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition
DEV.to AI·21 de abril de 2026
Investigadores presentaron KWBench, un benchmark de 223 tareas para evaluar si los LLM pueden reconocer problemas en escenarios profesionales sin indicaciones explícitas. El mejor modelo solo aprobó el 27,9% de las tareas, destacando una brecha crítica entre la ejecución de tareas y la comprensión situacional.
Leer original ↗