VLM

6 items

ARTICLE↑ trendingReddit r/MachineLearning·18d atrás

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

A Numind lançou o NuExtract3, um modelo VLM de 4B de peso aberto baseado em Qwen3.5-4B sob licença Apache-2.0. O objetivo é tornar a extração de informações de documentos complexos, como PDFs e formulários, mais prática e acessível.

VLM Data Extraction AI model Open-weight

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

RESEARCH↑ trendingReddit r/MachineLearning·22/04/2026

EMNLP workshop any good? Or any other NLP venue good for VLM eval work? [D]

O conteúdo pergunta sobre a adequação dos workshops do EMNLP para trabalhos de avaliação de Modelos Visão-Linguagem (VLM). Também procura recomendações de outros bons locais de PNL para este tipo de pesquisa.

evaluation VLM NLP research venues

RESEARCHarXiv CS.LG·15d atrás

MedExpMem: Adapting Experience Memory for Differential Diagnosis

Este artigo apresenta MedExpMem, uma estrutura de memória de experiência projetada para aprimorar modelos de visão-linguagem médica (VLMs) com expertise em diagnóstico diferencial. Ele permite que agentes de diagnóstico aprendam com suas próprias falhas, memorizando experiências discriminativas como notas diferenciais emparelhadas.

AI in medicine learning VLM machine learning

DOCDEV.to AI·18d atrás

Stop retraining YOLO: a developer’s guide to zero-shot object detection with generative VLMs

Este guia aborda o retreinamento repetitivo de modelos de detecção de objetos como YOLO em ambientes industriais, propondo Modelos de Visão-Linguagem Generativos (VLMs) para detecção zero-shot. Ele destaca como os VLMs transformam a detecção em prompts semânticos, eliminando a coleta contínua de dados e o retreinamento, mas aponta novos desafios arquitetônicos para equipes de engenharia industrial.

VLM object detection computer vision Generative AI

RESEARCHarXiv CS.AI·09/05/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM é uma nova estrutura que integra percepção (VLM) e decisão (LLM) através de um pipeline dinâmico de perguntas e respostas, permitindo que o LLM refine ativamente a saída do VLM para uma compreensão da cena orientada por tarefas. Essa abordagem supera significativamente os modelos baseados em imagem existentes em benchmarks como ALFWorld e Room-to-Room.

VLM embodied AI AI robotics

NEWSDEV.to AI·20d atrás

AI Daily Digest: May 20, 2026 — Agentic Workflows, Coding Agents & Embodied AI

Pelican-Unified 1.0 é apresentado como o primeiro modelo fundamental incorporado, integrando um único VLM para compreensão, imaginação e geração de ações em uma única passagem. Esta abordagem unificada supera os sistemas modulares em benchmarks e simplifica o desenvolvimento de robótica.

AI models Agentic Workflows VLM Embodied Intelligence