heapsort
RESEARCH27

Self-Play Reinforcement Learning under Imperfect Information in Big 2

arXiv CS.LG·29 mai 2026

Cette étude développe un cadre d'apprentissage par renforcement (RL) auto-appris pour le jeu de cartes Big 2 à information imparfaite. Elle démontre que PPO surpasse les autres agents d'approximation de valeur et bénéficie de la régularisation de l'entropie et de l'auto-apprentissage de la politique actuelle.

Lire l'original