heapsort
RESEARCH27

Belief-State RWKV for Reinforcement Learning under Partial Observability

arXiv CS.LG·14 de abril de 2026

Este artigo propõe uma formulação mais robusta de RL, chamada Belief-State RWKV, onde o estado recorrente é interpretado como um estado de crença explícito. O método mantém um estado compacto consciente da incerteza, permitindo que as políticas considerem tanto a memória quanto a confiança em ambientes parcialmente observáveis.

Ler original