RESEARCH27
PRISM: Perception Reasoning Interleaved for Sequential Decision Making
arXiv CS.AI·9 de mayo de 2026
PRISM es un nuevo marco que integra la percepción (VLM) y la decisión (LLM) a través de un pipeline dinámico de preguntas y respuestas, permitiendo que el LLM refine activamente la salida del VLM para una comprensión de la escena orientada a tareas. Este enfoque supera significativamente los modelos basados en imágenes existentes en benchmarks como ALFWorld y Room-to-Room.
Leer original ↗