RESEARCHarXiv CS.LG·hace 12d
Self-Play Reinforcement Learning under Imperfect Information in Big 2
Este estudio desarrolla un marco de aprendizaje por refuerzo de autoaprendizaje para el juego de cartas Big 2 con información imperfecta. La investigación demuestra que PPO supera a otros agentes de aproximación de valor y se beneficia de la regularización de entropía y el autoaprendizaje de la política actual.
27