RESEARCH27
KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition
DEV.to AI·21 de abril de 2026
Pesquisadores lançaram o KWBench, um benchmark de 223 tarefas para medir a capacidade de LLMs reconhecerem problemas em cenários profissionais sem serem explicitamente instruídos. O melhor modelo aprovou apenas 27,9% das tarefas, revelando uma lacuna significativa entre a execução de tarefas e a compreensão situacional.
Ler original ↗