← heapsort-ai

Partial Observability

1 items

RESEARCHarXiv CS.LG·14/04/2026

Belief-State RWKV for Reinforcement Learning under Partial Observability

Este artigo propõe uma formulação mais robusta de RL, chamada Belief-State RWKV, onde o estado recorrente é interpretado como um estado de crença explícito. O método mantém um estado compacto consciente da incerteza, permitindo que as políticas considerem tanto a memória quanto a confiança em ambientes parcialmente observáveis.

27