RESEARCHarXiv CS.CL·hace 27d
Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models
Los modelos de lenguaje visual (VLMs) sufren caídas de precisión y una severa descalibración al operar con entradas de solo texto, incluso con información semántica preservada. Se propone el Latent Imagination Module (LIM) para predecir incrustaciones latentes imaginadas a partir de texto, mejorando la precisión y reduciendo el error de calibración en escenarios de imágenes faltantes.
27