RESEARCHarXiv CS.CL·24/4/2026
Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents
Los Modelos de Visión-Lenguaje (VLMs) a menudo malinterpretan gráficos interactivos debido a un "Pixel-Only Bottleneck", tratándolos como imágenes estáticas. Este trabajo presenta Introspective and Interactive Visual Grounding (IVG), un marco que combina introspección basada en especificaciones e interacción basada en la vista para resolver ambigüedades visuales y mejorar la precisión.
30