VLM

6 items

ARTICLE↑ trendingReddit r/MachineLearning·hace 18d

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

Numind ha lanzado NuExtract3, un VLM de código abierto de 4B basado en Qwen3.5-4B bajo licencia Apache-2.0. Su objetivo es hacer más práctica y accesible la extracción de información de documentos complejos como PDF y formularios.

VLM Data Extraction AI Model Open-weight

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

RESEARCH↑ trendingReddit r/MachineLearning·22/4/2026

EMNLP workshop any good? Or any other NLP venue good for VLM eval work? [D]

El contenido pregunta sobre la idoneidad de los talleres de EMNLP para el trabajo de evaluación de modelos de visión-lenguaje (VLM). También busca recomendaciones de otros buenos lugares de PNL para este tipo de investigación.

evaluation VLM NLP research venues

RESEARCHarXiv CS.LG·hace 15d

MedExpMem: Adapting Experience Memory for Differential Diagnosis

Este artículo introduce MedExpMem, un marco de memoria de experiencia diseñado para mejorar los modelos médicos de visión-lenguaje (VLMs) con experiencia en diagnóstico diferencial. Permite que los agentes de diagnóstico aprendan de sus propios errores, memorizando experiencias discriminativas como notas diferenciales por pares.

AI in medicine learning VLM machine learning

DOCDEV.to AI·hace 18d

Stop retraining YOLO: a developer’s guide to zero-shot object detection with generative VLMs

Esta guía aborda el reentrenamiento repetitivo de modelos de detección de objetos como YOLO en entornos industriales, proponiendo Modelos Generativos de Visión-Lenguaje (VLMs) para la detección de cero-shot. Destaca cómo los VLMs transforman la detección en indicaciones semánticas, evitando la recopilación y el reentrenamiento continuos de datos, pero señala nuevos desafíos arquitectónicos para los equipos de ingeniería industrial.

VLM object detection computer vision Generative AI

RESEARCHarXiv CS.AI·9/5/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM es un nuevo marco que integra la percepción (VLM) y la decisión (LLM) a través de un pipeline dinámico de preguntas y respuestas, permitiendo que el LLM refine activamente la salida del VLM para una comprensión de la escena orientada a tareas. Este enfoque supera significativamente los modelos basados en imágenes existentes en benchmarks como ALFWorld y Room-to-Room.

VLM embodied AI AI robotics

NEWSDEV.to AI·hace 21d

AI Daily Digest: May 20, 2026 — Agentic Workflows, Coding Agents & Embodied AI

Pelican-Unified 1.0 se presenta como el primer modelo fundamental incorporado, que integra un único VLM para la comprensión, imaginación y generación de acciones en una sola pasada. Este enfoque unificado supera a los sistemas modulares en los benchmarks y simplifica el desarrollo de la robótica.

AI models Agentic Workflows VLM Embodied Intelligence