Vision-Language Models

25 items

ARTICLE↑ trendingReddit r/MachineLearning·20/04/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Un chercheur indépendant a créé SGOCR, un pipeline de jeu de données open source axé sur l'OCR et le VQA avec ancrage spatial, pour combler une lacune dans les jeux de données visuels pour l'ancrage de texte dans l'imagerie. Ce pipeline génère des tuples VQA avec des métadonnées riches, supportant diverses stratégies d'entraînement de VLM.

Open Source Vision-Language Models datasets OCR

ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

AI models Image processing Vision-Language Models computer vision

RESEARCHarXiv CS.CL·24/04/2026

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

Les modèles de vision-langage (VLM) interprètent souvent mal les graphiques interactifs à cause d'un « Pixel-Only Bottleneck », les traitant comme des images statiques. Cette étude introduit Introspective and Interactive Visual Grounding (IVG), un cadre combinant introspection basée sur les spécifications et interaction basée sur la vue pour résoudre les ambiguïtés visuelles et améliorer la précision des QA.

AI accuracy Vision-Language Models Visual Grounding Benchmarking

RESEARCHarXiv CS.AI·il y a 27j

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Cet article de recherche démontre que les ancres numériques intégrées aux images biaisent systématiquement les jugements de qualité des Modèles Vision-Langage (VLMs). Le sondage couche par couche révèle que les couches optimales pour la prédiction de qualité sont plus profondes que celles où la classification de l'ancre sature, établissant une explication causale du biais d'ancrage visuel.

neural networks Vision-Language Models Model Evaluation representation learning

CASEAWS Machine Learning Blog·06/05/2026

Cost effective deployment of vision-language models for pet behavior detection on AWS Inferentia2

La startup de technologie pour animaux de compagnie Tomofun utilise des instances EC2 Inf2 alimentées par AWS Inferentia2 pour un déploiement rentable de modèles de vision-langage pour la détection du comportement des animaux. Cette stratégie permet à l'entreprise de réduire considérablement ses coûts tout en maintenant la précision de ses systèmes.

Vision-Language Models AWS Inferentia2 pet tech AI deployment

RESEARCHDEV.to AI·19/04/2026

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

F-VLM propose une nouvelle approche pour la détection d'objets à vocabulaire ouvert, en tirant parti de manière efficace des modèles de vision et de langage pré-entraînés et figés. Cette méthode permet d'identifier un large éventail d'objets sans nécessiter de données d'entraînement spécifiques pour chaque nouvelle catégorie.

Vision-Language Models deep learning object detection computer vision

ARTICLEDEV.to AI·il y a 28j

Multimodal AI Applications in 2026

Cet article aborde l'évolution des modèles d'IA multimodaux, qui passent de la recherche aux API de production d'ici 2026, intégrant texte, images, audio et vidéo. Il couvre les capacités actuelles, les architectures et les schémas de production pour ces applications, y compris des modèles comme GPT-4o et Claude.

AI applications AI models multimodal AI Vision-Language Models

RESEARCHDEV.to AI·il y a 20j

PaliGemma 2: A Family of Versatile VLMs for Transfer

PaliGemma 2 est introduite comme une nouvelle famille de Modèles Langage-Vision (VLMs) polyvalents, conçue spécifiquement pour exceller dans diverses applications d'apprentissage par transfert. Cette avancée vise à améliorer les performances à travers diverses tâches multimodales grâce à un transfert de connaissances efficace.

AI models Vision-Language Models VLMs Transfer Learning

RESEARCHarXiv CS.AI·17/04/2026

Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning

GazeX est un nouveau modèle de langage visuel entraîné sur les données de suivi oculaire et de raisonnement des radiologues pour améliorer l'interprétation des radiographies thoraciques. Le modèle apprend à émuler l'attention spatiale et temporelle des experts, visant à combler l'écart entre les sorties du modèle et le raisonnement diagnostique clinique.

Vision-Language Models computer vision medical AI diagnostic tools

RESEARCHDEV.to AI·il y a 24j

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

MobileVLM V2 introduit une nouvelle référence améliorée pour les modèles de langage visuel, axée sur des performances plus rapides et des capacités plus robustes. Cette recherche vise à faire progresser l'efficacité et la robustesse des VLM sur les plateformes mobiles.

AI models Vision-Language Models research deep learning

RESEARCHDEV.to AI·il y a 29j

Spatial Forcing: Implicit Spatial Representation Alignment forVision-language-action Model

L'article introduit 'Spatial Forcing', une méthode pour aligner les représentations spatiales implicites dans les modèles vision-langage-action. Il vise à améliorer la compréhension et l'interaction de ces modèles avec l'information spatiale.

AI models Vision-Language Models machine learning robotics

ARTICLEDEV.to AI·il y a 28j

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Cet article détaille le processus de réglage fin d'OpenCLIP ViT-B/32 pour les styles architecturaux, obtenant une augmentation de 26 points de pourcentage de précision. L'auteur se concentre sur les décisions cruciales prises avant et après la boucle d'entraînement qui ont été responsables de ce résultat significatif, plutôt que sur l'optimisation de la boucle d'entraînement elle-même.

CLIP Vision-Language Models machine learning computer vision

RESEARCHarXiv CS.LG·05/05/2026

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

GAZE est un framework permettant aux Modèles Vision-Langage (VLM) médicaux d'analyser de manière itérative des images d'IRM cérébrale à l'aide d'outils de visualisation et de récupération de littérature. Il a atteint 58,2 mAP pour la localisation des lésions et 34,9 % de précision diagnostique Top-1 sur le benchmark NOVA pour les affections neurologiques rares.

Vision-Language Models neurology Benchmarking medical AI

RESEARCHarXiv CS.CL·10/04/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

Vision-Language Models visual reasoning Reinforced Latent Reasoning Chain-of-Thought

RESEARCHarXiv CS.CL·27/04/2026

Source-Modality Monitoring in Vision-Language Models

Cette étude définit et examine la surveillance de la modalité source dans les modèles de vision-langage (VLMs), soit leur capacité à suivre l'origine de l'information. Les recherches montrent que les VLMs utilisent des signaux syntaxiques et sémantiques pour associer des informations à leur source, les signaux sémantiques prédominant souvent, ce qui a des implications pour la robustesse des modèles.

model robustness multimodal AI Vision-Language Models

RESEARCHarXiv CS.CL·27/04/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Ce travail explore le raisonnement en langage neuro-symbolique dans les VLMs, utilisant l'apprentissage par renforcement pour améliorer les capacités analytiques et l'efficacité. Il a obtenu une augmentation de 3,33% de la précision sur un ensemble de données vision-langage et une réduction de 75% des tokens de raisonnement.

Vision-Language Models reinforcement learning Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.CL·08/04/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

language models Vision-Language Models reinforcement learning document optimization

RESEARCHarXiv CS.LG·il y a 7j

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

Des chercheurs proposent Demo2Reward, une technique d'adaptation en temps de test pour optimiser les modèles de récompense de Vision-Langage (VLMs) en robotique. Elle utilise quelques démonstrations pour réduire les faux positifs tout en préservant les vrais positifs, sans nécessiter d'entraînement supplémentaire du modèle.

Vision-Language Models reinforcement learning Prompt Optimization robotics

RESEARCHarXiv CS.AI·il y a 28j

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Cette recherche teste l'"Hypothèse de Confiance-Attention" dans les Modèles de Vision-Langage (VLMs), constatant que la structure de l'attention est un prédicteur quasi nul de la justesse. L'étude utilise un pipeline mécaniste unifié (VLM Reliability Probe) pour analyser la structure de l'attention, la dynamique de génération et la géométrie des états cachés dans trois familles de VLMs.

Vision-Language Models Mechanistic Interpretability attention mechanisms AI reliability

RESEARCHarXiv CS.LG·il y a 29j

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

Un nouveau cadre d'inférence sans entraînement, la Décodification Positive et Négative (PND), est introduit pour lutter contre l'hallucination d'objets dans les Modèles Vision-Langage (VLM). Le PND assure la fidélité visuelle via un mécanisme de contraste à double chemin, offrant des performances de pointe sans réentraînement.

multimodal AI hallucination Vision-Language Models decoding