← heapsort-ai

Visual Grounding

1 items

RESEARCHarXiv CS.CL·24/04/2026

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

Modelos de Visão-Linguagem (VLMs) frequentemente falham na interpretação de gráficos interativos devido a uma "Pixel-Only Bottleneck", tratando-os como imagens estáticas. Este trabalho apresenta o Introspective and Interactive Visual Grounding (IVG), uma estrutura que combina introspecção baseada em especificações e interação baseada na visualização para resolver ambiguidades visuais e melhora significativamente a precisão.

30