RESEARCH27

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

arXiv CS.CL·16 de abril de 2026

KMMMU es un nuevo benchmark coreano nativo para evaluar la comprensión multimodal en contextos culturales e institucionales coreanos, con 3.466 preguntas de exámenes nativos. El estudio revela que los modelos de IA actuales alcanzan solo un 42,05% de precisión en el conjunto completo, con fallos significativos en problemas cultural y disciplinariamente específicos.

language models multimodal AI evaluation Benchmarking

Leer original ↗