RESEARCH40

WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark

DEV.to AI·8 juin 2026

WorldBench, un nouveau benchmark multimodal de chercheurs du MIT, évalue 15 MLLM sur des images visuellement diverses, révélant des lacunes fondamentales dans la compréhension visuelle, le meilleur modèle n'obtenant qu'un score de 64,0%. Ce benchmark met l'accent sur la diversité visuelle pour exposer les faiblesses des modèles.

multimodal AI research AI Benchmarks MLLMs Visual Understanding

Lire l'original ↗