RESEARCH40
WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark
DEV.to AI·8 juin 2026
WorldBench, un nouveau benchmark multimodal de chercheurs du MIT, évalue 15 MLLM sur des images visuellement diverses, révélant des lacunes fondamentales dans la compréhension visuelle, le meilleur modèle n'obtenant qu'un score de 64,0%. Ce benchmark met l'accent sur la diversité visuelle pour exposer les faiblesses des modèles.
Lire l'original ↗