Visual Grounding — artículos, noticias e investigación de IA

RESEARCHarXiv CS.CL·24/4/2026

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

Los Modelos de Visión-Lenguaje (VLMs) a menudo malinterpretan gráficos interactivos debido a un "Pixel-Only Bottleneck", tratándolos como imágenes estáticas. Este trabajo presenta Introspective and Interactive Visual Grounding (IVG), un marco que combina introspección basada en especificaciones e interacción basada en la vista para resolver ambigüedades visuales y mejorar la precisión.

AI accuracy Vision-Language Models Visual Grounding Benchmarking