← heapsort-ai

Visual Grounding

1 items

RESEARCHarXiv CS.CL·24/4/2026

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

Los Modelos de Visión-Lenguaje (VLMs) a menudo malinterpretan gráficos interactivos debido a un "Pixel-Only Bottleneck", tratándolos como imágenes estáticas. Este trabajo presenta Introspective and Interactive Visual Grounding (IVG), un marco que combina introspección basada en especificaciones e interacción basada en la vista para resolver ambigüedades visuales y mejorar la precisión.

30