Vision-Language Models

25 items

ARTICLE↑ trendingReddit r/MachineLearning·4/20/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Ein unabhängiger Forscher entwickelte SGOCR, eine quelloffene Dataset-Pipeline für räumlich geerdetes, OCR-fokussiertes VQA, um eine Lücke in visuellen Datensätzen für die Textverankerung in Bildern zu schließen. Diese Pipeline generiert VQA-Tupel mit reichhaltigen Metadaten, die diverse VLM-Trainingsstrategien unterstützen.

Open Source Vision-Language Models datasets OCR

ARTICLE↑ trendingReddit r/MachineLearning·4/9/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

AI models Image processing Vision-Language Models computer vision

RESEARCHarXiv CS.CL·4/24/2026

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

Vision-Language-Modelle (VLMs) interpretieren interaktive Diagramme oft falsch, da sie sie aufgrund eines „Pixel-Only Bottleneck“ als statische Bilder behandeln. Diese Arbeit stellt Introspective and Interactive Visual Grounding (IVG) vor, ein Framework, das spekifikationsbasierte Introspektion und ansichtsbasierte Interaktion kombiniert, um visuelle Mehrdeutigkeiten zu lösen und die QA-Genauigkeit erheblich zu verbessern.

AI accuracy Vision-Language Models Visual Grounding Benchmarking

RESEARCHarXiv CS.AI·vor 27T

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Diese Forschungsarbeit zeigt, dass eingebettete numerische Anker auf Bildern systematisch die Qualitätsurteile von Vision-Language-Modellen (VLMs) verzerren. Schichtweise Sondierungen offenbaren, dass optimale Schichten für die Qualitätsprognose tiefer liegen als jene, in denen die Ankerklassifizierung sättigt, was eine kausale Erklärung für die visuelle Verankerungsverzerrung liefert.

neural networks Vision-Language Models Model Evaluation representation learning

CASEAWS Machine Learning Blog·5/6/2026

Cost effective deployment of vision-language models for pet behavior detection on AWS Inferentia2

Das Haustier-Tech-Startup Tomofun setzt EC2 Inf2-Instanzen mit AWS Inferentia2 ein, um Vision-Language-Modelle zur Haustierverhaltenserfassung kostengünstig bereitzustellen. Dieser Ansatz ermöglicht es dem Unternehmen, Kosten erheblich zu senken und gleichzeitig die Genauigkeit seiner Systeme zu erhalten.

Vision-Language Models AWS Inferentia2 pet tech AI deployment

RESEARCHDEV.to AI·4/19/2026

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

F-VLM führt einen neuartigen Ansatz für die Open-Vocabulary-Objekterkennung ein, indem es effizient eingefrorene vortrainierte Visions- und Sprachmodelle nutzt. Diese Methode ermöglicht die Identifizierung einer Vielzahl von Objekten, ohne spezifische Trainingsdaten für jede neue Kategorie zu benötigen.

Vision-Language Models deep learning object detection computer vision

ARTICLEDEV.to AI·vor 28T

Multimodal AI Applications in 2026

Dieser Artikel behandelt die Entwicklung multimodaler KI-Modelle, die bis 2026 von der Forschung zu Produktions-APIs übergehen und Text, Bilder, Audio und Video integrieren. Er beleuchtet aktuelle Funktionen, Architekturen und Produktionsmuster für diese Anwendungen, einschließlich Modellen wie GPT-4o und Claude.

AI applications AI models multimodal AI Vision-Language Models

RESEARCHDEV.to AI·vor 20T

PaliGemma 2: A Family of Versatile VLMs for Transfer

PaliGemma 2 wird als neue Familie vielseitiger Vision-Sprach-Modelle (VLMs) vorgestellt, die speziell entwickelt wurden, um in verschiedenen Transfer-Lernanwendungen hervorragende Leistungen zu erbringen. Dieser Fortschritt zielt darauf ab, die Leistung in verschiedenen multimodalen Aufgaben durch effektiven Wissenstransfer zu verbessern.

AI models Vision-Language Models VLMs Transfer Learning

RESEARCHarXiv CS.AI·4/17/2026

Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning

GazeX ist ein neues Vision-Sprachmodell, das anhand von Augenbewegungsdaten und Schlussfolgerungen von Radiologen trainiert wurde, um die Interpretation von Brust-Röntgenbildern zu verbessern. Das Modell lernt, die räumliche und zeitliche Aufmerksamkeit von Experten nachzuahmen, um die Lücke zwischen Modellausgaben und klinischem diagnostischem Denken zu schließen.

Vision-Language Models computer vision medical AI diagnostic tools

RESEARCHDEV.to AI·vor 24T

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

MobileVLM V2 stellt eine neue und verbesserte Basislinie für Vision Language Modelle vor, die sich auf schnellere Leistung und stärkere Fähigkeiten konzentriert. Diese Forschung zielt darauf ab, die Effizienz und Robustheit von VLMs auf mobilen Plattformen zu verbessern.

AI models Vision-Language Models research deep learning

RESEARCHDEV.to AI·vor 29T

Spatial Forcing: Implicit Spatial Representation Alignment forVision-language-action Model

Der Artikel stellt 'Spatial Forcing' vor, eine Methode zur Ausrichtung impliziter räumlicher Repräsentationen in Sicht-Sprach-Aktionsmodellen. Ziel ist es, das Verständnis und die Interaktion dieser Modelle mit räumlichen Informationen zu verbessern.

AI models Vision-Language Models machine learning robotics

ARTICLEDEV.to AI·vor 28T

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Dieser Artikel beschreibt den Fine-Tuning-Prozess von OpenCLIP ViT-B/32 für Architekturstile, wodurch eine Genauigkeitssteigerung von 26 Prozentpunkten erzielt wurde. Der Autor konzentriert sich auf die kritischen Entscheidungen vor und nach dem Trainingszyklus, die für dieses signifikante Ergebnis verantwortlich waren, anstatt auf die Optimierung des Trainingszyklus selbst.

CLIP Vision-Language Models machine learning computer vision

RESEARCHarXiv CS.LG·5/5/2026

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

GAZE ist ein Framework, das medizinischen Vision-Language-Modellen (VLMs) ermöglicht, Gehirn-MRT-Bilder iterativ mithilfe von Viewer-Tools und Literaturabruf zu analysieren. Es erreichte 58,2 mAP bei der Läsionslokalisierung und 34,9 % Top-1-Diagnosegenauigkeit auf dem NOVA-Benchmark für seltene neurologische Erkrankungen.

Vision-Language Models neurology Benchmarking medical AI

RESEARCHarXiv CS.CL·4/10/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

Vision-Language Models visual reasoning Reinforced Latent Reasoning Chain-of-Thought

RESEARCHarXiv CS.CL·4/27/2026

Source-Modality Monitoring in Vision-Language Models

Diese Forschung definiert und untersucht die Quellmodalitätsüberwachung in Vision-Language Models (VLMs), also die Fähigkeit, die Herkunft von Informationen zu verfolgen. Die Studie zeigt, dass VLMs sowohl syntaktische als auch semantische Signale nutzen, um Informationen ihrer Eingabequelle zuzuordnen, wobei semantische Signale oft überwiegen und Implikationen für die Modellrobustheit haben.

model robustness multimodal AI Vision-Language Models

RESEARCHarXiv CS.CL·4/27/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Diese Arbeit untersucht neuro-symbolisches Sprach-Reasoning in VLMs, wobei Reinforcement Learning zur Verbesserung analytischer Fähigkeiten und Effizienz eingesetzt wird. Sie erzielte eine Genauigkeitssteigerung von 3,33% auf einem Vision-Language-Datensatz und reduzierte die Reasoning-Token um 75%.

Vision-Language Models reinforcement learning Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.CL·4/8/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

language models Vision-Language Models reinforcement learning document optimization

RESEARCHarXiv CS.LG·vor 7T

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

Forscher schlagen Demo2Reward vor, eine Testzeit-Anpassungstechnik zur Optimierung von Vision-Sprachmodell (VLM)-Belohnungsmodellen in der Robotik. Sie verwendet wenige Demonstrationen, um Fehlalarme zu reduzieren und gleichzeitig Echt-Positive zu erhalten, ohne zusätzliches Modelltraining zu erfordern.

Vision-Language Models reinforcement learning Prompt Optimization robotics

RESEARCHarXiv CS.AI·vor 28T

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Diese Forschung testet die "Aufmerksamkeits-Vertrauens-Annahme" bei Vision-Sprach-Modellen (VLMs) und stellt fest, dass die Aufmerksamkeitsstruktur ein fast nuller Prädiktor für Korrektheit ist. Die Studie verwendet eine einheitliche mechanistische Pipeline (VLM Reliability Probe), um Aufmerksamkeitsstruktur, Generationsdynamik und Hidden-State-Geometrie in drei VLM-Familien zu analysieren.

Vision-Language Models Mechanistic Interpretability attention mechanisms AI reliability

RESEARCHarXiv CS.LG·vor 29T

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

Ein neues trainingsfreies Inferenz-Framework, Positive-and-Negative Decoding (PND), wird eingeführt, um Objekthalluzinationen in Vision-Language Models (VLMs) zu begegnen. PND erzwingt visuelle Treue durch einen Dual-Path-Kontrastmechanismus und erreicht Spitzenleistungen ohne erneutes Training.

multimodal AI hallucination Vision-Language Models decoding