RESEARCHarXiv CS.LG·il y a 12j
Self-Play Reinforcement Learning under Imperfect Information in Big 2
Cette étude développe un cadre d'apprentissage par renforcement (RL) auto-appris pour le jeu de cartes Big 2 à information imparfaite. Elle démontre que PPO surpasse les autres agents d'approximation de valeur et bénéficie de la régularisation de l'entropie et de l'auto-apprentissage de la politique actuelle.
27