RESEARCH27

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

arXiv CS.CL·16 avril 2026

KMMMU est un nouveau benchmark coréen natif pour évaluer la compréhension multimodale dans des contextes culturels et institutionnels coréens, comprenant 3 466 questions d'examens natifs. L'étude montre que les modèles d'IA actuels n'atteignent que 42,05 % de précision sur l'ensemble complet, avec des échecs importants sur des problèmes culturels et disciplinaires spécifiques.

language models multimodal AI evaluation Benchmarking

Lire l'original ↗