puzzle games — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.AI·vor 27T

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Dieses Papier stellt VLATIM vor, einen neuen Benchmark zur Bewertung der menschenähnlichen logischen Problemlösungsfähigkeiten von Vision-Language-Modellen (VLMs) in Point-and-Click-Physik-Puzzlespielen. Es zeigt eine signifikante Diskrepanz zwischen Denk- und Ausführungsfähigkeiten bei großen proprietären Modellen bei der Lösung des Spiels The Incredible Machine 2 auf.

puzzle games Vision-Language Models interactive AI Benchmarking