RESEARCH27
Self-Play Reinforcement Learning under Imperfect Information in Big 2
arXiv CS.LG·29 de mayo de 2026
Este estudio desarrolla un marco de aprendizaje por refuerzo de autoaprendizaje para el juego de cartas Big 2 con información imperfecta. La investigación demuestra que PPO supera a otros agentes de aproximación de valor y se beneficia de la regularización de entropía y el autoaprendizaje de la política actual.
Leer original ↗