RESEARCH27

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

arXiv CS.AI·13 de maio de 2026

Este artigo apresenta VLATIM, um novo benchmark para avaliar a capacidade de resolução de problemas lógicos de modelos de visão-linguagem (VLMs) em jogos de quebra-cabeça de física "point-and-click". Ele revela uma lacuna significativa entre o raciocínio e a execução em modelos proprietários grandes ao resolver o jogo The Incredible Machine 2.

puzzle games Vision-Language Models interactive AI Benchmarking AI Reasoning

Ler original ↗