puzzle games — artículos, noticias e investigación de IA

RESEARCHarXiv CS.AI·hace 27d

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Este artículo presenta VLATIM, un nuevo benchmark para evaluar la capacidad de resolución de problemas lógicos similares a los humanos en modelos de visión-lenguaje (VLMs) en juegos de rompecabezas de física "point-and-click". Revela una disparidad significativa entre el razonamiento y la ejecución en grandes modelos propietarios al resolver el juego The Incredible Machine 2.

puzzle games Vision-Language Models interactive AI Benchmarking