← heapsort-ai

Vision-Language Models

25 items

ARTICLE↑ trendingReddit r/MachineLearning·20/04/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Un chercheur indépendant a créé SGOCR, un pipeline de jeu de données open source axé sur l'OCR et le VQA avec ancrage spatial, pour combler une lacune dans les jeux de données visuels pour l'ancrage de texte dans l'imagerie. Ce pipeline génère des tuples VQA avec des métadonnées riches, supportant diverses stratégies d'entraînement de VLM.

42
ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

40
RESEARCHarXiv CS.CL·24/04/2026

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

Les modèles de vision-langage (VLM) interprètent souvent mal les graphiques interactifs à cause d'un « Pixel-Only Bottleneck », les traitant comme des images statiques. Cette étude introduit Introspective and Interactive Visual Grounding (IVG), un cadre combinant introspection basée sur les spécifications et interaction basée sur la vue pour résoudre les ambiguïtés visuelles et améliorer la précision des QA.

30
RESEARCHarXiv CS.AI·il y a 27j

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Cet article de recherche démontre que les ancres numériques intégrées aux images biaisent systématiquement les jugements de qualité des Modèles Vision-Langage (VLMs). Le sondage couche par couche révèle que les couches optimales pour la prédiction de qualité sont plus profondes que celles où la classification de l'ancre sature, établissant une explication causale du biais d'ancrage visuel.

29
CASEAWS Machine Learning Blog·06/05/2026

Cost effective deployment of vision-language models for pet behavior detection on AWS Inferentia2

La startup de technologie pour animaux de compagnie Tomofun utilise des instances EC2 Inf2 alimentées par AWS Inferentia2 pour un déploiement rentable de modèles de vision-langage pour la détection du comportement des animaux. Cette stratégie permet à l'entreprise de réduire considérablement ses coûts tout en maintenant la précision de ses systèmes.

28
RESEARCHDEV.to AI·19/04/2026

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

F-VLM propose une nouvelle approche pour la détection d'objets à vocabulaire ouvert, en tirant parti de manière efficace des modèles de vision et de langage pré-entraînés et figés. Cette méthode permet d'identifier un large éventail d'objets sans nécessiter de données d'entraînement spécifiques pour chaque nouvelle catégorie.

28
RESEARCHarXiv CS.AI·17/04/2026

Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning

GazeX est un nouveau modèle de langage visuel entraîné sur les données de suivi oculaire et de raisonnement des radiologues pour améliorer l'interprétation des radiographies thoraciques. Le modèle apprend à émuler l'attention spatiale et temporelle des experts, visant à combler l'écart entre les sorties du modèle et le raisonnement diagnostique clinique.

27
ARTICLEDEV.to AI·il y a 28j

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Cet article détaille le processus de réglage fin d'OpenCLIP ViT-B/32 pour les styles architecturaux, obtenant une augmentation de 26 points de pourcentage de précision. L'auteur se concentre sur les décisions cruciales prises avant et après la boucle d'entraînement qui ont été responsables de ce résultat significatif, plutôt que sur l'optimisation de la boucle d'entraînement elle-même.

27
RESEARCHarXiv CS.LG·05/05/2026

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

GAZE est un framework permettant aux Modèles Vision-Langage (VLM) médicaux d'analyser de manière itérative des images d'IRM cérébrale à l'aide d'outils de visualisation et de récupération de littérature. Il a atteint 58,2 mAP pour la localisation des lésions et 34,9 % de précision diagnostique Top-1 sur le benchmark NOVA pour les affections neurologiques rares.

27
RESEARCHarXiv CS.CL·10/04/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

27
RESEARCHarXiv CS.CL·27/04/2026

Source-Modality Monitoring in Vision-Language Models

Cette étude définit et examine la surveillance de la modalité source dans les modèles de vision-langage (VLMs), soit leur capacité à suivre l'origine de l'information. Les recherches montrent que les VLMs utilisent des signaux syntaxiques et sémantiques pour associer des informations à leur source, les signaux sémantiques prédominant souvent, ce qui a des implications pour la robustesse des modèles.

27
RESEARCHarXiv CS.CL·27/04/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Ce travail explore le raisonnement en langage neuro-symbolique dans les VLMs, utilisant l'apprentissage par renforcement pour améliorer les capacités analytiques et l'efficacité. Il a obtenu une augmentation de 3,33% de la précision sur un ensemble de données vision-langage et une réduction de 75% des tokens de raisonnement.

27
RESEARCHarXiv CS.CL·08/04/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

27
RESEARCHarXiv CS.LG·il y a 7j

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

Des chercheurs proposent Demo2Reward, une technique d'adaptation en temps de test pour optimiser les modèles de récompense de Vision-Langage (VLMs) en robotique. Elle utilise quelques démonstrations pour réduire les faux positifs tout en préservant les vrais positifs, sans nécessiter d'entraînement supplémentaire du modèle.

27
RESEARCHarXiv CS.AI·il y a 28j

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Cette recherche teste l'"Hypothèse de Confiance-Attention" dans les Modèles de Vision-Langage (VLMs), constatant que la structure de l'attention est un prédicteur quasi nul de la justesse. L'étude utilise un pipeline mécaniste unifié (VLM Reliability Probe) pour analyser la structure de l'attention, la dynamique de génération et la géométrie des états cachés dans trois familles de VLMs.

27
RESEARCHarXiv CS.LG·il y a 29j

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

Un nouveau cadre d'inférence sans entraînement, la Décodification Positive et Négative (PND), est introduit pour lutter contre l'hallucination d'objets dans les Modèles Vision-Langage (VLM). Le PND assure la fidélité visuelle via un mécanisme de contraste à double chemin, offrant des performances de pointe sans réentraînement.

27