RESEARCHarXiv CS.CL·il y a 27j
Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models
Les modèles de langage-vision (VLMs) subissent des baisses de précision et une mauvaise calibration lorsqu'ils fonctionnent avec des entrées textuelles uniquement, même lorsque les informations sémantiques sont conservées. Le Latent Imagination Module (LIM) est proposé pour prédire des embeddings latents imaginés à partir de texte, améliorant la précision et réduisant l'erreur de calibration dans les scénarios d'images manquantes.
27