RESEARCH27

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

arXiv CS.CL·16 de abril de 2026

KMMMU é um novo benchmark coreano para avaliar a compreensão multimodal em contextos culturais e institucionais coreanos, contendo 3.466 perguntas de exames nativos. O estudo mostra que modelos de IA atuais atingem apenas 42,05% de precisão no conjunto completo, com falhas significativas em questões específicas da cultura e disciplina.

language models multimodal AI evaluation Benchmarking

Ler original ↗