← heapsort-ai

VLM

6 items

DOCDEV.to AI·18d atrás

Stop retraining YOLO: a developer’s guide to zero-shot object detection with generative VLMs

Este guia aborda o retreinamento repetitivo de modelos de detecção de objetos como YOLO em ambientes industriais, propondo Modelos de Visão-Linguagem Generativos (VLMs) para detecção zero-shot. Ele destaca como os VLMs transformam a detecção em prompts semânticos, eliminando a coleta contínua de dados e o retreinamento, mas aponta novos desafios arquitetônicos para equipes de engenharia industrial.

27
RESEARCHarXiv CS.AI·09/05/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM é uma nova estrutura que integra percepção (VLM) e decisão (LLM) através de um pipeline dinâmico de perguntas e respostas, permitindo que o LLM refine ativamente a saída do VLM para uma compreensão da cena orientada por tarefas. Essa abordagem supera significativamente os modelos baseados em imagem existentes em benchmarks como ALFWorld e Room-to-Room.

27