RESEARCHarXiv CS.LG·vor 12T
Self-Play Reinforcement Learning under Imperfect Information in Big 2
Diese Studie entwickelt ein Self-Play-Reinforcement-Learning-Framework für das Kartenspiel Big 2 mit unvollständigen Informationen. Die Forschung zeigt, dass PPO andere wertapproximierende Agenten übertrifft und von Entropieregulierung sowie aktuellem Policy-Self-Play profitiert.
27