RESEARCH27

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

arXiv CS.AI·13. Mai 2026

Dieses Papier stellt VLATIM vor, einen neuen Benchmark zur Bewertung der menschenähnlichen logischen Problemlösungsfähigkeiten von Vision-Language-Modellen (VLMs) in Point-and-Click-Physik-Puzzlespielen. Es zeigt eine signifikante Diskrepanz zwischen Denk- und Ausführungsfähigkeiten bei großen proprietären Modellen bei der Lösung des Spiels The Incredible Machine 2 auf.

puzzle games Vision-Language Models interactive AI Benchmarking AI Reasoning

Original lesen ↗