imperfect-information-games — artículos, noticias e investigación de IA

RESEARCHarXiv CS.LG·hace 12d

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Este estudio desarrolla un marco de aprendizaje por refuerzo de autoaprendizaje para el juego de cartas Big 2 con información imperfecta. La investigación demuestra que PPO supera a otros agentes de aproximación de valor y se beneficia de la regularización de entropía y el autoaprendizaje de la política actual.

reinforcement learning learning self-play imperfect-information-games