heapsort
RESEARCH27

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

arXiv CS.AI·9 de mayo de 2026

PRISM es un nuevo marco que integra la percepción (VLM) y la decisión (LLM) a través de un pipeline dinámico de preguntas y respuestas, permitiendo que el LLM refine activamente la salida del VLM para una comprensión de la escena orientada a tareas. Este enfoque supera significativamente los modelos basados en imágenes existentes en benchmarks como ALFWorld y Room-to-Room.

Leer original