← heapsort-ai

Vision-Language Models

25 items

RESEARCHarXiv CS.CL·vor 27T

Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

Vision-Sprachmodelle (VLMs) erfahren erhebliche Genauigkeitsverluste und starke Fehlkalibrierung bei der Verwendung von rein textuellen Eingaben, selbst bei erhaltenen semantischen Informationen. Das Latent Imagination Module (LIM) wird vorgeschlagen, um imaginierte latente Einbettungen aus Text vorherzusagen, was die Genauigkeit verbessert und den Kalibrierungsfehler in Szenarien mit fehlenden Bildern reduziert.

27
RESEARCHarXiv CS.AI·vor 28T

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Dieses Papier stellt VLATIM vor, einen neuen Benchmark zur Bewertung der menschenähnlichen logischen Problemlösungsfähigkeiten von Vision-Language-Modellen (VLMs) in Point-and-Click-Physik-Puzzlespielen. Es zeigt eine signifikante Diskrepanz zwischen Denk- und Ausführungsfähigkeiten bei großen proprietären Modellen bei der Lösung des Spiels The Incredible Machine 2 auf.

27
RESEARCHarXiv CS.AI·vor 15T

In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models

Diese Forschung untersucht die Fähigkeit von KI zur offenen Entdeckung in der kreativen Produktion, indem Picbreeder mit Vision-Language-Modellen repliziert wird. Es werden deutliche qualitative Unterschiede zwischen KI-generierten und historischen menschlichen Ergebnissen festgestellt, die charakterisiert werden sollen.

27
NEWSTogether AI Blog·3/18/2026

Together AI expands fine-tuning service with tool calling, reasoning, and vision support

Together AI hat seinen Fine-Tuning-Dienst um native Unterstützung für Werkzeugaufrufe, Schlussfolgerungen und Vision-Language-Modelle erweitert. Die Erweiterungen umfassen außerdem das Training von Modellen mit über 100 Milliarden Parametern, einen bis zu 6-fach höheren Durchsatz sowie Schätzungen für Jobkosten und die voraussichtliche Fertigstellungszeit.

24