Miscalibration — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.CL·vor 27T

Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

Vision-Sprachmodelle (VLMs) erfahren erhebliche Genauigkeitsverluste und starke Fehlkalibrierung bei der Verwendung von rein textuellen Eingaben, selbst bei erhaltenen semantischen Informationen. Das Latent Imagination Module (LIM) wird vorgeschlagen, um imaginierte latente Einbettungen aus Text vorherzusagen, was die Genauigkeit verbessert und den Kalibrierungsfehler in Szenarien mit fehlenden Bildern reduziert.

Miscalibration Vision-Language Models Latent Imagination Text-Only Inputs