RESEARCH27
PRISM: Perception Reasoning Interleaved for Sequential Decision Making
arXiv CS.AI·9. Mai 2026
PRISM ist ein neues Framework, das Wahrnehmung (VLM) und Entscheidung (LLM) durch eine dynamische Frage-Antwort-Pipeline integriert, wodurch das LLM die Ausgabe des VLM aktiv für ein aufgabenorientiertes Szenenverständnis verfeinern kann. Dieser Ansatz übertrifft bestehende bildbasierte Modelle auf Benchmarks wie ALFWorld und Room-to-Room erheblich.
Original lesen ↗