RESEARCHarXiv CS.AI·vor 27T
Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?
Dieses Papier stellt VLATIM vor, einen neuen Benchmark zur Bewertung der menschenähnlichen logischen Problemlösungsfähigkeiten von Vision-Language-Modellen (VLMs) in Point-and-Click-Physik-Puzzlespielen. Es zeigt eine signifikante Diskrepanz zwischen Denk- und Ausführungsfähigkeiten bei großen proprietären Modellen bei der Lösung des Spiels The Incredible Machine 2 auf.
27