heapsort
RESEARCH27

Self-Play Reinforcement Learning under Imperfect Information in Big 2

arXiv CS.LG·29. Mai 2026

Diese Studie entwickelt ein Self-Play-Reinforcement-Learning-Framework für das Kartenspiel Big 2 mit unvollständigen Informationen. Die Forschung zeigt, dass PPO andere wertapproximierende Agenten übertrifft und von Entropieregulierung sowie aktuellem Policy-Self-Play profitiert.

Original lesen