RESEARCH40

WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark

DEV.to AI·8. Juni 2026

WorldBench, ein neuer multimodaler Benchmark von MIT-Forschern, bewertet 15 MLLMs anhand visuell unterschiedlicher Bilder und deckt grundlegende Lücken im visuellen Verständnis auf, wobei das beste Modell nur 64,0% erreicht. Dieser Benchmark priorisiert visuelle Vielfalt, um Schwachstellen in Modellen aufzudecken.

multimodal AI research AI Benchmarks MLLMs Visual Understanding

Original lesen ↗