heapsort
RESEARCH40

WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark

DEV.to AI·8 de junho de 2026

O WorldBench, um novo benchmark multimodal de pesquisadores do MIT, avalia 15 MLLMs em imagens visualmente diversas, revelando lacunas fundamentais na compreensão visual, com o melhor modelo pontuando apenas 64,0%. Este benchmark foca na diversidade visual para expor deficiências nos modelos.

Ler original