puzzle games — articles, actualités et recherches IA

RESEARCHarXiv CS.AI·il y a 27j

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Cet article introduit VLATIM, un nouveau benchmark conçu pour évaluer les capacités de résolution de problèmes logiques similaires à celles des humains chez les modèles vision-langage (VLMs) dans les jeux de réflexion de physique "pointer-cliquer". Il révèle une disparité significative entre le raisonnement et l'exécution chez les grands modèles propriétaires lors de la résolution du jeu The Incredible Machine 2.

puzzle games Vision-Language Models interactive AI Benchmarking