Vision-Language Models

25 items

RESEARCHarXiv CS.CL·il y a 26j

Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

Les modèles de langage-vision (VLMs) subissent des baisses de précision et une mauvaise calibration lorsqu'ils fonctionnent avec des entrées textuelles uniquement, même lorsque les informations sémantiques sont conservées. Le Latent Imagination Module (LIM) est proposé pour prédire des embeddings latents imaginés à partir de texte, améliorant la précision et réduisant l'erreur de calibration dans les scénarios d'images manquantes.

Miscalibration Vision-Language Models Latent Imagination Text-Only Inputs

RESEARCHarXiv CS.AI·il y a 27j

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Cet article introduit VLATIM, un nouveau benchmark conçu pour évaluer les capacités de résolution de problèmes logiques similaires à celles des humains chez les modèles vision-langage (VLMs) dans les jeux de réflexion de physique "pointer-cliquer". Il révèle une disparité significative entre le raisonnement et l'exécution chez les grands modèles propriétaires lors de la résolution du jeu The Incredible Machine 2.

puzzle games Vision-Language Models interactive AI Benchmarking

RESEARCHarXiv CS.LG·il y a 14j

CAFD: Concept-Aware DNN Fault Detection using VLMs

CAFD est une nouvelle approche basée sur l'apprentissage pour la détection de défauts dans les Réseaux Neuronaux Profonds (DNN), intégrant plusieurs sources d'information pour des performances et une efficacité supérieures. Elle utilise des signaux basés sur le modèle, des caractéristiques basées sur la distance et un nouveau ratio de défaillance conceptuelle (CFR) dérivé des Modèles de Vision-Langage (VLMs).

Fault Detection Vision-Language Models machine learning AI reliability

RESEARCHarXiv CS.AI·il y a 14j

In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models

Cette recherche explore la capacité de découverte ouverte de l'IA dans la production créative en répliquant Picbreeder avec des modèles de vision-langage. Elle observe des différences qualitatives nettes entre les sorties générées par l'IA et les références humaines historiques, cherchant à les caractériser.

Open-Ended Learning Vision-Language Models Evolutionary AI AI Research

NEWSTogether AI Blog·18/03/2026

Together AI expands fine-tuning service with tool calling, reasoning, and vision support

Together AI a étendu son service de fine-tuning avec un support natif pour l'appel d'outils, le raisonnement et les modèles de vision-langage. Les améliorations comprennent également la formation de modèles de plus de 100 milliards de paramètres, un débit jusqu'à 6 fois supérieur, et des estimations de coût et de délai.

Vision-Language Models tool-calling Reasoning Together AI