heapsort
RESEARCH27

Belief-State RWKV for Reinforcement Learning under Partial Observability

arXiv CS.LG·14 avril 2026

Cet article propose Belief-State RWKV, une formulation plus robuste du RL où l'état récurrent est explicitement interprété comme un état de croyance. La méthode maintient un état compact conscient de l'incertitude, permettant aux politiques de dépendre à la fois de la mémoire et de la confiance dans des environnements partiellement observés.

Lire l'original