RESEARCHDEV.to AI·1d atrás
WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark
O WorldBench, um novo benchmark multimodal de pesquisadores do MIT, avalia 15 MLLMs em imagens visualmente diversas, revelando lacunas fundamentais na compreensão visual, com o melhor modelo pontuando apenas 64,0%. Este benchmark foca na diversidade visual para expor deficiências nos modelos.
40