imperfect-information-games — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.LG·vor 12T

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Diese Studie entwickelt ein Self-Play-Reinforcement-Learning-Framework für das Kartenspiel Big 2 mit unvollständigen Informationen. Die Forschung zeigt, dass PPO andere wertapproximierende Agenten übertrifft und von Entropieregulierung sowie aktuellem Policy-Self-Play profitiert.

reinforcement learning learning self-play imperfect-information-games