RESEARCHarXiv CS.CL·4/24/2026
Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents
Vision-Language-Modelle (VLMs) interpretieren interaktive Diagramme oft falsch, da sie sie aufgrund eines „Pixel-Only Bottleneck“ als statische Bilder behandeln. Diese Arbeit stellt Introspective and Interactive Visual Grounding (IVG) vor, ein Framework, das spekifikationsbasierte Introspektion und ansichtsbasierte Interaktion kombiniert, um visuelle Mehrdeutigkeiten zu lösen und die QA-Genauigkeit erheblich zu verbessern.
30