RESEARCH27

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

arXiv CS.AI·13 mai 2026

Cet article introduit VLATIM, un nouveau benchmark conçu pour évaluer les capacités de résolution de problèmes logiques similaires à celles des humains chez les modèles vision-langage (VLMs) dans les jeux de réflexion de physique "pointer-cliquer". Il révèle une disparité significative entre le raisonnement et l'exécution chez les grands modèles propriétaires lors de la résolution du jeu The Incredible Machine 2.

puzzle games Vision-Language Models interactive AI Benchmarking AI Reasoning

Lire l'original ↗