RESEARCHDEV.to AI·hace 1d
WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark
WorldBench, un nuevo benchmark multimodal de investigadores del MIT, evalúa 15 MLLM en imágenes visualmente diversas, revelando brechas fundamentales en la comprensión visual, con el modelo superior puntuando solo un 64,0%. Este benchmark prioriza la diversidad visual sobre los tipos de tareas.
40