heapsort
RESEARCH27

Belief-State RWKV for Reinforcement Learning under Partial Observability

arXiv CS.LG·14. April 2026

Diese Arbeit schlägt Belief-State RWKV vor, eine stärkere RL-Formulierung, bei der der rekurrente Zustand explizit als Glaubenszustand interpretiert wird. Die Methode pflegt einen kompakten, unsicherheitsbewussten Zustand, der es Richtlinien ermöglicht, sich in teilweise beobachtbaren Umgebungen sowohl auf Gedächtnis als auch auf Vertrauen zu stützen.

Original lesen