heapsort
RESEARCH27

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

arXiv CS.AI·9 mai 2026

PRISM est un nouveau cadre qui intègre la perception (VLM) et la décision (LLM) via un pipeline dynamique de questions-réponses, permettant au LLM d'affiner activement la sortie du VLM pour une compréhension de scène axée sur la tâche. Cette approche surpasse significativement les modèles basés sur l'image existants sur des benchmarks comme ALFWorld et Room-to-Room.

Lire l'original