RESEARCH27
Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?
arXiv CS.AI·13 de mayo de 2026
Este artículo presenta VLATIM, un nuevo benchmark para evaluar la capacidad de resolución de problemas lógicos similares a los humanos en modelos de visión-lenguaje (VLMs) en juegos de rompecabezas de física "point-and-click". Revela una disparidad significativa entre el razonamiento y la ejecución en grandes modelos propietarios al resolver el juego The Incredible Machine 2.
Leer original ↗