Visual Grounding — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.CL·4/24/2026

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

Vision-Language-Modelle (VLMs) interpretieren interaktive Diagramme oft falsch, da sie sie aufgrund eines „Pixel-Only Bottleneck“ als statische Bilder behandeln. Diese Arbeit stellt Introspective and Interactive Visual Grounding (IVG) vor, ein Framework, das spekifikationsbasierte Introspektion und ansichtsbasierte Interaktion kombiniert, um visuelle Mehrdeutigkeiten zu lösen und die QA-Genauigkeit erheblich zu verbessern.

AI accuracy Vision-Language Models Visual Grounding Benchmarking