RESEARCH27
Belief-State RWKV for Reinforcement Learning under Partial Observability
arXiv CS.LG·14 de abril de 2026
Este artigo propõe uma formulação mais robusta de RL, chamada Belief-State RWKV, onde o estado recorrente é interpretado como um estado de crença explícito. O método mantém um estado compacto consciente da incerteza, permitindo que as políticas considerem tanto a memória quanto a confiança em ambientes parcialmente observáveis.
Ler original ↗