heapsort
RESEARCH30

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

arXiv CS.CL·24. April 2026

Vision-Language-Modelle (VLMs) interpretieren interaktive Diagramme oft falsch, da sie sie aufgrund eines „Pixel-Only Bottleneck“ als statische Bilder behandeln. Diese Arbeit stellt Introspective and Interactive Visual Grounding (IVG) vor, ein Framework, das spekifikationsbasierte Introspektion und ansichtsbasierte Interaktion kombiniert, um visuelle Mehrdeutigkeiten zu lösen und die QA-Genauigkeit erheblich zu verbessern.

Original lesen