Vision-Language Models

25 items

ARTICLE↑ trendingReddit r/MachineLearning·20/4/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Un investigador independiente creó SGOCR, una pipeline de dataset de código abierto centrada en OCR y VQA con base espacial, para cubrir una brecha en los datasets visuales para la conexión de texto en imágenes. Esta pipeline genera tuplas VQA con metadatos enriquecidos, soportando diversas estrategias de entrenamiento de VLM.

Open Source Vision-Language Models datasets OCR

ARTICLE↑ trendingReddit r/MachineLearning·9/4/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

AI models Image processing Vision-Language Models computer vision

RESEARCHarXiv CS.CL·24/4/2026

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

Los Modelos de Visión-Lenguaje (VLMs) a menudo malinterpretan gráficos interactivos debido a un "Pixel-Only Bottleneck", tratándolos como imágenes estáticas. Este trabajo presenta Introspective and Interactive Visual Grounding (IVG), un marco que combina introspección basada en especificaciones e interacción basada en la vista para resolver ambigüedades visuales y mejorar la precisión.

AI accuracy Vision-Language Models Visual Grounding Benchmarking

RESEARCHarXiv CS.AI·hace 27d

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Este artículo de investigación muestra que los anclajes numéricos incrustados en las imágenes sesgan sistemáticamente los juicios de calidad de los Modelos de Visión-Lenguaje (VLMs). El sondeo capa por capa revela que las capas óptimas para la predicción de calidad son más profundas que donde satura la clasificación del anclaje, estableciendo una explicación causal del sesgo de anclaje visual.

neural networks Vision-Language Models Model Evaluation representation learning

CASEAWS Machine Learning Blog·6/5/2026

Cost effective deployment of vision-language models for pet behavior detection on AWS Inferentia2

La startup de tecnología para mascotas Tomofun está utilizando instancias EC2 Inf2 con AWS Inferentia2 para una implementación rentable de modelos de visión-lenguaje para la detección del comportamiento de mascotas. Este enfoque permite a la empresa reducir costos significativamente manteniendo la precisión de sus sistemas.

Vision-Language Models AWS Inferentia2 pet tech AI deployment

RESEARCHDEV.to AI·19/4/2026

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

F-VLM introduce un enfoque novedoso para la detección de objetos de vocabulario abierto, aprovechando eficientemente modelos de visión y lenguaje pre-entrenados y congelados. Este método permite identificar una amplia gama de objetos sin requerir datos de entrenamiento específicos para cada nueva categoría.

Vision-Language Models deep learning object detection computer vision

ARTICLEDEV.to AI·hace 28d

Multimodal AI Applications in 2026

Este artículo explora la evolución de los modelos de IA multimodales, que están pasando de la investigación a las APIs de producción para 2026, integrando texto, imágenes, audio y video. Cubre las capacidades actuales, arquitecturas y patrones de producción para estas aplicaciones, destacando modelos como GPT-4o y Claude.

AI applications AI models multimodal AI Vision-Language Models

RESEARCHDEV.to AI·hace 20d

PaliGemma 2: A Family of Versatile VLMs for Transfer

PaliGemma 2 se presenta como una nueva familia de Modelos de Lenguaje-Visión (VLMs) versátiles, diseñada específicamente para sobresalir en diversas aplicaciones de aprendizaje por transferencia. Este avance busca mejorar el rendimiento en múltiples tareas multimodales mediante una transferencia de conocimiento efectiva.

AI models Vision-Language Models VLMs Transfer Learning

RESEARCHarXiv CS.AI·17/4/2026

Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning

GazeX es un nuevo modelo de lenguaje visual entrenado con datos de seguimiento ocular y razonamiento de radiólogos para mejorar la interpretación de radiografías de tórax. El modelo aprende a emular la atención espacial y temporal experta, con el objetivo de cerrar la brecha entre las salidas del modelo y el razonamiento diagnóstico clínico.

Vision-Language Models computer vision medical AI diagnostic tools

RESEARCHDEV.to AI·hace 24d

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

MobileVLM V2 presenta una línea de base nueva y mejorada para modelos de lenguaje visual, centrándose en un rendimiento más rápido y capacidades más robustas. Esta investigación tiene como objetivo mejorar la eficiencia y la solidez de los VLM en plataformas móviles.

AI models Vision-Language Models research deep learning

RESEARCHDEV.to AI·hace 29d

Spatial Forcing: Implicit Spatial Representation Alignment forVision-language-action Model

El artículo presenta 'Spatial Forcing', un método para alinear representaciones espaciales implícitas en modelos de visión-lenguaje-acción. Su objetivo es mejorar la comprensión e interacción de estos modelos con la información espacial.

AI models Vision-Language Models machine learning robotics

ARTICLEDEV.to AI·hace 28d

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Este artículo detalla el proceso de ajuste fino de OpenCLIP ViT-B/32 para estilos arquitectónicos, logrando un aumento de 26 puntos porcentuales en la precisión. El autor se centra en las decisiones críticas tomadas antes y después del ciclo de entrenamiento que fueron responsables de este resultado significativo, y no en la optimización del propio ciclo de entrenamiento.

CLIP Vision-Language Models machine learning computer vision

RESEARCHarXiv CS.LG·5/5/2026

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

GAZE es un framework que permite a los Modelos de Visión-Lenguaje (VLM) médicos analizar imágenes de RMN cerebral de forma iterativa, utilizando herramientas de visualización y recuperación de literatura. Alcanzó 58.2 mAP en localización de lesiones y 34.9% de precisión diagnóstica Top-1 en el benchmark NOVA para condiciones neurológicas raras.

Vision-Language Models neurology Benchmarking medical AI

RESEARCHarXiv CS.CL·10/4/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

Vision-Language Models visual reasoning Reinforced Latent Reasoning Chain-of-Thought

RESEARCHarXiv CS.CL·27/4/2026

Source-Modality Monitoring in Vision-Language Models

Esta investigación define y explora el monitoreo de modalidad de origen en modelos de visión-lenguaje (VLMs), que es la capacidad de rastrear la fuente de la información. El estudio revela que los VLMs usan señales sintácticas y semánticas para vincular información a su origen, siendo las señales semánticas a menudo más influyentes, lo que tiene implicaciones para la robustez del modelo.

model robustness multimodal AI Vision-Language Models

RESEARCHarXiv CS.CL·27/4/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Este trabajo explora el razonamiento en lenguaje neuro-simbólico en VLMs, utilizando Aprendizaje por Refuerzo para mejorar las habilidades analíticas y la eficiencia. Logró un aumento del 3,33% en la precisión en un conjunto de datos de visión-lenguaje y una reducción del 75% en los tokens de razonamiento.

Vision-Language Models reinforcement learning Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.CL·8/4/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

language models Vision-Language Models reinforcement learning document optimization

RESEARCHarXiv CS.LG·hace 7d

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

Investigadores proponen Demo2Reward, una técnica de adaptación en tiempo de prueba para optimizar modelos de recompensa de Visión-Lenguaje (VLMs) en robótica. Utiliza pocas demostraciones para reducir falsos positivos, preservando los verdaderos positivos, sin requerir entrenamiento adicional del modelo.

Vision-Language Models reinforcement learning Prompt Optimization robotics

RESEARCHarXiv CS.AI·hace 28d

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Esta investigación prueba la "Hipótesis de Atención-Confianza" en Modelos de Visión-Lenguaje (VLMs), descubriendo que la estructura de la atención es un predictor casi nulo de la corrección. El estudio utiliza una metodología mecanicista unificada (VLM Reliability Probe) para analizar la atención, la dinámica de generación y la geometría de los estados ocultos en tres familias de VLMs.

Vision-Language Models Mechanistic Interpretability attention mechanisms AI reliability

RESEARCHarXiv CS.LG·hace 29d

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

Se presenta un nuevo framework de inferencia sin entrenamiento, Decodificación Positiva y Negativa (PND), para abordar la alucinación de objetos en Modelos de Visión-Lenguaje (VLMs). PND refuerza la fidelidad visual mediante un mecanismo de contraste de doble vía, logrando un rendimiento de vanguardia sin necesidad de reentrenamiento.

multimodal AI hallucination Vision-Language Models decoding