← heapsort-ai

Vision-Language Models

25 items

ARTICLE↑ trendingReddit r/MachineLearning·9/4/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

40
RESEARCHarXiv CS.CL·24/4/2026

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

Los Modelos de Visión-Lenguaje (VLMs) a menudo malinterpretan gráficos interactivos debido a un "Pixel-Only Bottleneck", tratándolos como imágenes estáticas. Este trabajo presenta Introspective and Interactive Visual Grounding (IVG), un marco que combina introspección basada en especificaciones e interacción basada en la vista para resolver ambigüedades visuales y mejorar la precisión.

30
RESEARCHarXiv CS.AI·hace 27d

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Este artículo de investigación muestra que los anclajes numéricos incrustados en las imágenes sesgan sistemáticamente los juicios de calidad de los Modelos de Visión-Lenguaje (VLMs). El sondeo capa por capa revela que las capas óptimas para la predicción de calidad son más profundas que donde satura la clasificación del anclaje, estableciendo una explicación causal del sesgo de anclaje visual.

29
CASEAWS Machine Learning Blog·6/5/2026

Cost effective deployment of vision-language models for pet behavior detection on AWS Inferentia2

La startup de tecnología para mascotas Tomofun está utilizando instancias EC2 Inf2 con AWS Inferentia2 para una implementación rentable de modelos de visión-lenguaje para la detección del comportamiento de mascotas. Este enfoque permite a la empresa reducir costos significativamente manteniendo la precisión de sus sistemas.

28
RESEARCHarXiv CS.AI·17/4/2026

Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning

GazeX es un nuevo modelo de lenguaje visual entrenado con datos de seguimiento ocular y razonamiento de radiólogos para mejorar la interpretación de radiografías de tórax. El modelo aprende a emular la atención espacial y temporal experta, con el objetivo de cerrar la brecha entre las salidas del modelo y el razonamiento diagnóstico clínico.

27
ARTICLEDEV.to AI·hace 28d

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Este artículo detalla el proceso de ajuste fino de OpenCLIP ViT-B/32 para estilos arquitectónicos, logrando un aumento de 26 puntos porcentuales en la precisión. El autor se centra en las decisiones críticas tomadas antes y después del ciclo de entrenamiento que fueron responsables de este resultado significativo, y no en la optimización del propio ciclo de entrenamiento.

27
RESEARCHarXiv CS.LG·5/5/2026

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

GAZE es un framework que permite a los Modelos de Visión-Lenguaje (VLM) médicos analizar imágenes de RMN cerebral de forma iterativa, utilizando herramientas de visualización y recuperación de literatura. Alcanzó 58.2 mAP en localización de lesiones y 34.9% de precisión diagnóstica Top-1 en el benchmark NOVA para condiciones neurológicas raras.

27
RESEARCHarXiv CS.CL·10/4/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

27
RESEARCHarXiv CS.CL·27/4/2026

Source-Modality Monitoring in Vision-Language Models

Esta investigación define y explora el monitoreo de modalidad de origen en modelos de visión-lenguaje (VLMs), que es la capacidad de rastrear la fuente de la información. El estudio revela que los VLMs usan señales sintácticas y semánticas para vincular información a su origen, siendo las señales semánticas a menudo más influyentes, lo que tiene implicaciones para la robustez del modelo.

27
RESEARCHarXiv CS.CL·27/4/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Este trabajo explora el razonamiento en lenguaje neuro-simbólico en VLMs, utilizando Aprendizaje por Refuerzo para mejorar las habilidades analíticas y la eficiencia. Logró un aumento del 3,33% en la precisión en un conjunto de datos de visión-lenguaje y una reducción del 75% en los tokens de razonamiento.

27
RESEARCHarXiv CS.CL·8/4/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

27
RESEARCHarXiv CS.AI·hace 28d

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Esta investigación prueba la "Hipótesis de Atención-Confianza" en Modelos de Visión-Lenguaje (VLMs), descubriendo que la estructura de la atención es un predictor casi nulo de la corrección. El estudio utiliza una metodología mecanicista unificada (VLM Reliability Probe) para analizar la atención, la dinámica de generación y la geometría de los estados ocultos en tres familias de VLMs.

27
RESEARCHarXiv CS.LG·hace 29d

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

Se presenta un nuevo framework de inferencia sin entrenamiento, Decodificación Positiva y Negativa (PND), para abordar la alucinación de objetos en Modelos de Visión-Lenguaje (VLMs). PND refuerza la fidelidad visual mediante un mecanismo de contraste de doble vía, logrando un rendimiento de vanguardia sin necesidad de reentrenamiento.

27