imperfect-information-games — articles, actualités et recherches IA

RESEARCHarXiv CS.LG·il y a 12j

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Cette étude développe un cadre d'apprentissage par renforcement (RL) auto-appris pour le jeu de cartes Big 2 à information imparfaite. Elle démontre que PPO surpasse les autres agents d'approximation de valeur et bénéficie de la régularisation de l'entropie et de l'auto-apprentissage de la politique actuelle.

reinforcement learning learning self-play imperfect-information-games