RESEARCH27

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

arXiv CS.CL·16. April 2026

KMMMU ist ein neuer, nativer koreanischer Benchmark zur Bewertung des multimodalen Verständnisses in koreanischen kulturellen und institutionellen Kontexten, der 3.466 Fragen aus nativen Prüfungen enthält. Die Studie zeigt, dass aktuelle KI-Modelle auf dem gesamten Datensatz nur 42,05 % Genauigkeit erreichen, mit erheblichen Fehlern bei kulturell und fachspezifisch relevanten Problemen.

language models multimodal AI evaluation Benchmarking

Original lesen ↗