RESEARCH40
WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark
DEV.to AI·8 de junho de 2026
O WorldBench, um novo benchmark multimodal de pesquisadores do MIT, avalia 15 MLLMs em imagens visualmente diversas, revelando lacunas fundamentais na compreensão visual, com o melhor modelo pontuando apenas 64,0%. Este benchmark foca na diversidade visual para expor deficiências nos modelos.
Ler original ↗