← heapsort-ai

Vision-Language Models

25 items

RESEARCHarXiv CS.CL·il y a 26j

Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

Les modèles de langage-vision (VLMs) subissent des baisses de précision et une mauvaise calibration lorsqu'ils fonctionnent avec des entrées textuelles uniquement, même lorsque les informations sémantiques sont conservées. Le Latent Imagination Module (LIM) est proposé pour prédire des embeddings latents imaginés à partir de texte, améliorant la précision et réduisant l'erreur de calibration dans les scénarios d'images manquantes.

27
RESEARCHarXiv CS.AI·il y a 27j

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Cet article introduit VLATIM, un nouveau benchmark conçu pour évaluer les capacités de résolution de problèmes logiques similaires à celles des humains chez les modèles vision-langage (VLMs) dans les jeux de réflexion de physique "pointer-cliquer". Il révèle une disparité significative entre le raisonnement et l'exécution chez les grands modèles propriétaires lors de la résolution du jeu The Incredible Machine 2.

27
RESEARCHarXiv CS.LG·il y a 14j

CAFD: Concept-Aware DNN Fault Detection using VLMs

CAFD est une nouvelle approche basée sur l'apprentissage pour la détection de défauts dans les Réseaux Neuronaux Profonds (DNN), intégrant plusieurs sources d'information pour des performances et une efficacité supérieures. Elle utilise des signaux basés sur le modèle, des caractéristiques basées sur la distance et un nouveau ratio de défaillance conceptuelle (CFR) dérivé des Modèles de Vision-Langage (VLMs).

27
RESEARCHarXiv CS.AI·il y a 14j

In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models

Cette recherche explore la capacité de découverte ouverte de l'IA dans la production créative en répliquant Picbreeder avec des modèles de vision-langage. Elle observe des différences qualitatives nettes entre les sorties générées par l'IA et les références humaines historiques, cherchant à les caractériser.

27
NEWSTogether AI Blog·18/03/2026

Together AI expands fine-tuning service with tool calling, reasoning, and vision support

Together AI a étendu son service de fine-tuning avec un support natif pour l'appel d'outils, le raisonnement et les modèles de vision-langage. Les améliorations comprennent également la formation de modèles de plus de 100 milliards de paramètres, un débit jusqu'à 6 fois supérieur, et des estimations de coût et de délai.

24