heapsort
RESEARCH40

WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark

DEV.to AI·8 de junio de 2026

WorldBench, un nuevo benchmark multimodal de investigadores del MIT, evalúa 15 MLLM en imágenes visualmente diversas, revelando brechas fundamentales en la comprensión visual, con el modelo superior puntuando solo un 64,0%. Este benchmark prioriza la diversidad visual sobre los tipos de tareas.

Leer original