VLM

6 items

ARTICLE↑ trendingReddit r/MachineLearning·il y a 18j

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

Numind a lancé NuExtract3, un VLM de 4B en poids ouvert basé sur Qwen3.5-4B sous licence Apache-2.0. Il vise à rendre l'extraction d'informations à partir de documents complexes, tels que des PDF et des formulaires, plus pratique et accessible.

VLM Data Extraction AI model Open-weight

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

RESEARCH↑ trendingReddit r/MachineLearning·22/04/2026

EMNLP workshop any good? Or any other NLP venue good for VLM eval work? [D]

Le contenu interroge sur la pertinence des ateliers EMNLP pour les travaux d'évaluation des modèles de vision-langage (VLM). Il demande également des recommandations pour d'autres bonnes conférences PNL pour ce type de recherche.

evaluation VLM NLP research venues

RESEARCHarXiv CS.LG·il y a 15j

MedExpMem: Adapting Experience Memory for Differential Diagnosis

Cet article présente MedExpMem, un cadre de mémoire d'expérience conçu pour améliorer les modèles de vision-langage médicaux (VLMs) avec une expertise en diagnostic différentiel. Il permet aux agents de diagnostic d'apprendre de leurs propres échecs en mémorisant des expériences discriminatives sous forme de notes différentielles par paires.

AI in medicine learning VLM machine learning

DOCDEV.to AI·il y a 18j

Stop retraining YOLO: a developer’s guide to zero-shot object detection with generative VLMs

Ce guide aborde le réentraînement répétitif des modèles de détection d'objets comme YOLO dans les environnements industriels en proposant des Modèles de Vision-Langage Génératifs (VLMs) pour la détection en zéro-shot. Il souligne comment les VLMs transforment la détection en requêtes sémantiques, évitant la collecte continue de données et le réentraînement, mais note de nouveaux défis architecturaux pour les équipes d'ingénierie industrielle.

VLM object detection computer vision Generative AI

RESEARCHarXiv CS.AI·09/05/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM est un nouveau cadre qui intègre la perception (VLM) et la décision (LLM) via un pipeline dynamique de questions-réponses, permettant au LLM d'affiner activement la sortie du VLM pour une compréhension de scène axée sur la tâche. Cette approche surpasse significativement les modèles basés sur l'image existants sur des benchmarks comme ALFWorld et Room-to-Room.

VLM embodied AI AI robotics

NEWSDEV.to AI·il y a 20j

AI Daily Digest: May 20, 2026 — Agentic Workflows, Coding Agents & Embodied AI

Pelican-Unified 1.0 est présenté comme le premier modèle fondamental incarné, intégrant un seul VLM pour la compréhension, l'imagination et la génération d'actions en une seule passe. Cette approche unifiée surpasse les systèmes modulaires sur les benchmarks et simplifie le développement robotique.

AI models Agentic Workflows VLM Embodied Intelligence