RESEARCH27

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

DEV.to AI·21 de abril de 2026

Investigadores presentaron KWBench, un benchmark de 223 tareas para evaluar si los LLM pueden reconocer problemas en escenarios profesionales sin indicaciones explícitas. El mejor modelo solo aprobó el 27,9% de las tareas, destacando una brecha crítica entre la ejecución de tareas y la comprensión situacional.

LLMs Benchmarks AI evaluation

Leer original ↗