VLM

6 items

ARTICLE↑ trendingReddit r/MachineLearning·vor 18T

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

Numind hat NuExtract3 veröffentlicht, ein 4B Open-Weight VLM, das auf Qwen3.5-4B basiert und unter der Apache-2.0-Lizenz steht. Ziel ist es, die Informationsgewinnung aus komplexen Dokumenten wie PDFs und Formularen praktischer und zugänglicher zu gestalten.

VLM Data Extraction AI model Open-weight

NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable) [P]

RESEARCH↑ trendingReddit r/MachineLearning·4/22/2026

EMNLP workshop any good? Or any other NLP venue good for VLM eval work? [D]

Der Inhalt fragt nach der Eignung von EMNLP-Workshops für die Evaluationsarbeit von Vision-Language Models (VLM). Es werden auch Empfehlungen für andere gute NLP-Veranstaltungsorte für diese Art von Forschung gesucht.

evaluation VLM NLP research venues

RESEARCHarXiv CS.LG·vor 15T

MedExpMem: Adapting Experience Memory for Differential Diagnosis

Dieser Artikel stellt MedExpMem vor, ein Erfahrungsgedächtnis-Framework, das medizinische Vision-Language-Modelle (VLMs) mit Expertise in der Differentialdiagnose ausstattet. Es ermöglicht diagnostischen Agenten, aus ihren eigenen Fehlern zu lernen, indem sie diskriminierende Erfahrungen als paarweise differentielle Notizen speichern.

AI in medicine learning VLM machine learning

DOCDEV.to AI·vor 18T

Stop retraining YOLO: a developer’s guide to zero-shot object detection with generative VLMs

Dieser Leitfaden behandelt das wiederholte Neutrainieren von Objekterkennungsmodellen wie YOLO in industriellen Umgebungen, indem er Generative Vision-Sprachmodelle (VLMs) für die Zero-Shot-Erkennung vorschlägt. Er hebt hervor, wie VLMs die Erkennung in semantische Prompts umwandeln, wodurch ständige Datenerfassung und Neutraining umgangen werden, weist jedoch auf neue architektonische Herausforderungen für Industrieteams hin.

VLM object detection computer vision Generative AI

RESEARCHarXiv CS.AI·5/9/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM ist ein neues Framework, das Wahrnehmung (VLM) und Entscheidung (LLM) durch eine dynamische Frage-Antwort-Pipeline integriert, wodurch das LLM die Ausgabe des VLM aktiv für ein aufgabenorientiertes Szenenverständnis verfeinern kann. Dieser Ansatz übertrifft bestehende bildbasierte Modelle auf Benchmarks wie ALFWorld und Room-to-Room erheblich.

VLM embodied AI AI robotics

NEWSDEV.to AI·vor 20T

AI Daily Digest: May 20, 2026 — Agentic Workflows, Coding Agents & Embodied AI

Pelican-Unified 1.0 wird als das erste verkörperte Grundlagenmodell vorgestellt, das ein einziges VLM für Verständnis, Vorstellung und Aktionsgenerierung in einem Durchlauf integriert. Dieser vereinheitlichte Ansatz übertrifft modulare Systeme bei Benchmarks und vereinfacht die Robotikentwicklung.

AI models Agentic Workflows VLM Embodied Intelligence