← heapsort-ai

VLM

6 items

DOCDEV.to AI·il y a 18j

Stop retraining YOLO: a developer’s guide to zero-shot object detection with generative VLMs

Ce guide aborde le réentraînement répétitif des modèles de détection d'objets comme YOLO dans les environnements industriels en proposant des Modèles de Vision-Langage Génératifs (VLMs) pour la détection en zéro-shot. Il souligne comment les VLMs transforment la détection en requêtes sémantiques, évitant la collecte continue de données et le réentraînement, mais note de nouveaux défis architecturaux pour les équipes d'ingénierie industrielle.

27
RESEARCHarXiv CS.AI·09/05/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM est un nouveau cadre qui intègre la perception (VLM) et la décision (LLM) via un pipeline dynamique de questions-réponses, permettant au LLM d'affiner activement la sortie du VLM pour une compréhension de scène axée sur la tâche. Cette approche surpasse significativement les modèles basés sur l'image existants sur des benchmarks comme ALFWorld et Room-to-Room.

27