← heapsort-ai

VLM

6 items

DOCDEV.to AI·hace 18d

Stop retraining YOLO: a developer’s guide to zero-shot object detection with generative VLMs

Esta guía aborda el reentrenamiento repetitivo de modelos de detección de objetos como YOLO en entornos industriales, proponiendo Modelos Generativos de Visión-Lenguaje (VLMs) para la detección de cero-shot. Destaca cómo los VLMs transforman la detección en indicaciones semánticas, evitando la recopilación y el reentrenamiento continuos de datos, pero señala nuevos desafíos arquitectónicos para los equipos de ingeniería industrial.

27
RESEARCHarXiv CS.AI·9/5/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM es un nuevo marco que integra la percepción (VLM) y la decisión (LLM) a través de un pipeline dinámico de preguntas y respuestas, permitiendo que el LLM refine activamente la salida del VLM para una comprensión de la escena orientada a tareas. Este enfoque supera significativamente los modelos basados en imágenes existentes en benchmarks como ALFWorld y Room-to-Room.

27