RESEARCH27
Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?
arXiv CS.AI·13 mai 2026
Cet article introduit VLATIM, un nouveau benchmark conçu pour évaluer les capacités de résolution de problèmes logiques similaires à celles des humains chez les modèles vision-langage (VLMs) dans les jeux de réflexion de physique "pointer-cliquer". Il révèle une disparité significative entre le raisonnement et l'exécution chez les grands modèles propriétaires lors de la résolution du jeu The Incredible Machine 2.
Lire l'original ↗