RESEARCH27
Self-Play Reinforcement Learning under Imperfect Information in Big 2
arXiv CS.LG·29. Mai 2026
Diese Studie entwickelt ein Self-Play-Reinforcement-Learning-Framework für das Kartenspiel Big 2 mit unvollständigen Informationen. Die Forschung zeigt, dass PPO andere wertapproximierende Agenten übertrifft und von Entropieregulierung sowie aktuellem Policy-Self-Play profitiert.
Original lesen ↗