RESEARCH40
WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark
DEV.to AI·8 de junio de 2026
WorldBench, un nuevo benchmark multimodal de investigadores del MIT, evalúa 15 MLLM en imágenes visualmente diversas, revelando brechas fundamentales en la comprensión visual, con el modelo superior puntuando solo un 64,0%. Este benchmark prioriza la diversidad visual sobre los tipos de tareas.
Leer original ↗