RESEARCH27

Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

arXiv CS.CL·14 de maio de 2026

Modelos de linguagem visual (VLMs) sofrem queda de precisão e calibração ao operar apenas com texto, mesmo quando a informação semântica é preservada. O Latent Imagination Module (LIM) é proposto para prever embeddings latentes a partir de texto, melhorando a precisão e reduzindo erros de calibração em cenários de ausência de imagem.

Miscalibration Vision-Language Models Latent Imagination Text-Only Inputs AI Research

Ler original ↗