RESEARCH27

Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

arXiv CS.CL·14 mai 2026

Les modèles de langage-vision (VLMs) subissent des baisses de précision et une mauvaise calibration lorsqu'ils fonctionnent avec des entrées textuelles uniquement, même lorsque les informations sémantiques sont conservées. Le Latent Imagination Module (LIM) est proposé pour prédire des embeddings latents imaginés à partir de texte, améliorant la précision et réduisant l'erreur de calibration dans les scénarios d'images manquantes.

Miscalibration Vision-Language Models Latent Imagination Text-Only Inputs AI Research

Lire l'original ↗