RESEARCHarXiv CS.CL·27d atrás
Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models
Modelos de linguagem visual (VLMs) sofrem queda de precisão e calibração ao operar apenas com texto, mesmo quando a informação semântica é preservada. O Latent Imagination Module (LIM) é proposto para prever embeddings latentes a partir de texto, melhorando a precisão e reduzindo erros de calibração em cenários de ausência de imagem.
27