Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents
Modelos de Visão-Linguagem (VLMs) frequentemente falham na interpretação de gráficos interativos devido a uma "Pixel-Only Bottleneck", tratando-os como imagens estáticas. Este trabalho apresenta o Introspective and Interactive Visual Grounding (IVG), uma estrutura que combina introspecção baseada em especificações e interação baseada na visualização para resolver ambiguidades visuais e melhora significativamente a precisão.