Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents
Les modèles de vision-langage (VLM) interprètent souvent mal les graphiques interactifs à cause d'un « Pixel-Only Bottleneck », les traitant comme des images statiques. Cette étude introduit Introspective and Interactive Visual Grounding (IVG), un cadre combinant introspection basée sur les spécifications et interaction basée sur la vue pour résoudre les ambiguïtés visuelles et améliorer la précision des QA.
