RESEARCHarXiv CS.AI·hace 27d
Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?
Este artículo presenta VLATIM, un nuevo benchmark para evaluar la capacidad de resolución de problemas lógicos similares a los humanos en modelos de visión-lenguaje (VLMs) en juegos de rompecabezas de física "point-and-click". Revela una disparidad significativa entre el razonamiento y la ejecución en grandes modelos propietarios al resolver el juego The Incredible Machine 2.
27