heapsort
RESEARCH27

Self-Play Reinforcement Learning under Imperfect Information in Big 2

arXiv CS.LG·29 de mayo de 2026

Este estudio desarrolla un marco de aprendizaje por refuerzo de autoaprendizaje para el juego de cartas Big 2 con información imperfecta. La investigación demuestra que PPO supera a otros agentes de aproximación de valor y se beneficia de la regularización de entropía y el autoaprendizaje de la política actual.

Leer original