RESEARCH27

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

DEV.to AI·21 de abril de 2026

Pesquisadores lançaram o KWBench, um benchmark de 223 tarefas para medir a capacidade de LLMs reconhecerem problemas em cenários profissionais sem serem explicitamente instruídos. O melhor modelo aprovou apenas 27,9% das tarefas, revelando uma lacuna significativa entre a execução de tarefas e a compreensão situacional.

LLMs Benchmarks AI evaluation

Ler original ↗