RESEARCH27

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

arXiv CS.AI·13 de mayo de 2026

Este artículo presenta VLATIM, un nuevo benchmark para evaluar la capacidad de resolución de problemas lógicos similares a los humanos en modelos de visión-lenguaje (VLMs) en juegos de rompecabezas de física "point-and-click". Revela una disparidad significativa entre el razonamiento y la ejecución en grandes modelos propietarios al resolver el juego The Incredible Machine 2.

puzzle games Vision-Language Models interactive AI Benchmarking AI Reasoning

Leer original ↗