RESEARCH40
WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark
DEV.to AI·8. Juni 2026
WorldBench, ein neuer multimodaler Benchmark von MIT-Forschern, bewertet 15 MLLMs anhand visuell unterschiedlicher Bilder und deckt grundlegende Lücken im visuellen Verständnis auf, wobei das beste Modell nur 64,0% erreicht. Dieser Benchmark priorisiert visuelle Vielfalt, um Schwachstellen in Modellen aufzudecken.
Original lesen ↗