RESEARCH27
Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models
arXiv CS.CL·14 de maio de 2026
Modelos de linguagem visual (VLMs) sofrem queda de precisão e calibração ao operar apenas com texto, mesmo quando a informação semântica é preservada. O Latent Imagination Module (LIM) é proposto para prever embeddings latentes a partir de texto, melhorando a precisão e reduzindo erros de calibração em cenários de ausência de imagem.
Ler original ↗