heapsort
RESEARCH27

Self-Play Reinforcement Learning under Imperfect Information in Big 2

arXiv CS.LG·29 de maio de 2026

Este estudo desenvolve uma estrutura de aprendizado por reforço (RL) de autoaprendizagem para o jogo de cartas Big 2, testando agentes sob informação imperfeita. A pesquisa demonstra que o PPO supera outras abordagens em termos de desempenho contra oponentes variados.

Ler original