Latent Imagination — articles, actualités et recherches IA

RESEARCHarXiv CS.CL·il y a 27j

Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

Les modèles de langage-vision (VLMs) subissent des baisses de précision et une mauvaise calibration lorsqu'ils fonctionnent avec des entrées textuelles uniquement, même lorsque les informations sémantiques sont conservées. Le Latent Imagination Module (LIM) est proposé pour prédire des embeddings latents imaginés à partir de texte, améliorant la précision et réduisant l'erreur de calibration dans les scénarios d'images manquantes.

Miscalibration Vision-Language Models Latent Imagination Text-Only Inputs