puzzle games — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.AI·28d atrás

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Este artigo apresenta VLATIM, um novo benchmark para avaliar a capacidade de resolução de problemas lógicos de modelos de visão-linguagem (VLMs) em jogos de quebra-cabeça de física "point-and-click". Ele revela uma lacuna significativa entre o raciocínio e a execução em modelos proprietários grandes ao resolver o jogo The Incredible Machine 2.

puzzle games Vision-Language Models interactive AI benchmarking