RESEARCH27
PRISM: Perception Reasoning Interleaved for Sequential Decision Making
arXiv CS.AI·9 de maio de 2026
PRISM é uma nova estrutura que integra percepção (VLM) e decisão (LLM) através de um pipeline dinâmico de perguntas e respostas, permitindo que o LLM refine ativamente a saída do VLM para uma compreensão da cena orientada por tarefas. Essa abordagem supera significativamente os modelos baseados em imagem existentes em benchmarks como ALFWorld e Room-to-Room.
Ler original ↗