← heapsort-ai

Vision-Language Models

25 items

ARTICLE↑ trendingReddit r/MachineLearning·4/9/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

40
RESEARCHarXiv CS.CL·4/24/2026

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

Vision-Language-Modelle (VLMs) interpretieren interaktive Diagramme oft falsch, da sie sie aufgrund eines „Pixel-Only Bottleneck“ als statische Bilder behandeln. Diese Arbeit stellt Introspective and Interactive Visual Grounding (IVG) vor, ein Framework, das spekifikationsbasierte Introspektion und ansichtsbasierte Interaktion kombiniert, um visuelle Mehrdeutigkeiten zu lösen und die QA-Genauigkeit erheblich zu verbessern.

30
RESEARCHarXiv CS.AI·vor 27T

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Diese Forschungsarbeit zeigt, dass eingebettete numerische Anker auf Bildern systematisch die Qualitätsurteile von Vision-Language-Modellen (VLMs) verzerren. Schichtweise Sondierungen offenbaren, dass optimale Schichten für die Qualitätsprognose tiefer liegen als jene, in denen die Ankerklassifizierung sättigt, was eine kausale Erklärung für die visuelle Verankerungsverzerrung liefert.

29
CASEAWS Machine Learning Blog·5/6/2026

Cost effective deployment of vision-language models for pet behavior detection on AWS Inferentia2

Das Haustier-Tech-Startup Tomofun setzt EC2 Inf2-Instanzen mit AWS Inferentia2 ein, um Vision-Language-Modelle zur Haustierverhaltenserfassung kostengünstig bereitzustellen. Dieser Ansatz ermöglicht es dem Unternehmen, Kosten erheblich zu senken und gleichzeitig die Genauigkeit seiner Systeme zu erhalten.

28
RESEARCHarXiv CS.AI·4/17/2026

Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning

GazeX ist ein neues Vision-Sprachmodell, das anhand von Augenbewegungsdaten und Schlussfolgerungen von Radiologen trainiert wurde, um die Interpretation von Brust-Röntgenbildern zu verbessern. Das Modell lernt, die räumliche und zeitliche Aufmerksamkeit von Experten nachzuahmen, um die Lücke zwischen Modellausgaben und klinischem diagnostischem Denken zu schließen.

27
ARTICLEDEV.to AI·vor 28T

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Dieser Artikel beschreibt den Fine-Tuning-Prozess von OpenCLIP ViT-B/32 für Architekturstile, wodurch eine Genauigkeitssteigerung von 26 Prozentpunkten erzielt wurde. Der Autor konzentriert sich auf die kritischen Entscheidungen vor und nach dem Trainingszyklus, die für dieses signifikante Ergebnis verantwortlich waren, anstatt auf die Optimierung des Trainingszyklus selbst.

27
RESEARCHarXiv CS.LG·5/5/2026

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

GAZE ist ein Framework, das medizinischen Vision-Language-Modellen (VLMs) ermöglicht, Gehirn-MRT-Bilder iterativ mithilfe von Viewer-Tools und Literaturabruf zu analysieren. Es erreichte 58,2 mAP bei der Läsionslokalisierung und 34,9 % Top-1-Diagnosegenauigkeit auf dem NOVA-Benchmark für seltene neurologische Erkrankungen.

27
RESEARCHarXiv CS.CL·4/10/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

27
RESEARCHarXiv CS.CL·4/27/2026

Source-Modality Monitoring in Vision-Language Models

Diese Forschung definiert und untersucht die Quellmodalitätsüberwachung in Vision-Language Models (VLMs), also die Fähigkeit, die Herkunft von Informationen zu verfolgen. Die Studie zeigt, dass VLMs sowohl syntaktische als auch semantische Signale nutzen, um Informationen ihrer Eingabequelle zuzuordnen, wobei semantische Signale oft überwiegen und Implikationen für die Modellrobustheit haben.

27
RESEARCHarXiv CS.CL·4/8/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

27
RESEARCHarXiv CS.AI·vor 28T

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Diese Forschung testet die "Aufmerksamkeits-Vertrauens-Annahme" bei Vision-Sprach-Modellen (VLMs) und stellt fest, dass die Aufmerksamkeitsstruktur ein fast nuller Prädiktor für Korrektheit ist. Die Studie verwendet eine einheitliche mechanistische Pipeline (VLM Reliability Probe), um Aufmerksamkeitsstruktur, Generationsdynamik und Hidden-State-Geometrie in drei VLM-Familien zu analysieren.

27