RESEARCHarXiv CS.LG·11d atrás
Self-Play Reinforcement Learning under Imperfect Information in Big 2
Este estudo desenvolve uma estrutura de aprendizado por reforço (RL) de autoaprendizagem para o jogo de cartas Big 2, testando agentes sob informação imperfeita. A pesquisa demonstra que o PPO supera outras abordagens em termos de desempenho contra oponentes variados.
27