RESEARCHDEV.to AI·vor 1T
WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark
WorldBench, ein neuer multimodaler Benchmark von MIT-Forschern, bewertet 15 MLLMs anhand visuell unterschiedlicher Bilder und deckt grundlegende Lücken im visuellen Verständnis auf, wobei das beste Modell nur 64,0% erreicht. Dieser Benchmark priorisiert visuelle Vielfalt, um Schwachstellen in Modellen aufzudecken.
40