self-play

5 items

RESEARCHarXiv CS.LG·8/4/2026

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Este trabalho apresenta o ambiente Territory Paint Wars para investigar modos de falha do PPO em aprendizado por reforço multiagente competitivo. Ele identifica falhas de implementação que causam baixo desempenho e, após a correção, revela um novo problema de overfitting competitivo que prejudica a generalização.

failure modes reinforcement learning self-play PPO

RESEARCHarXiv CS.LG·hace 22d

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Esta investigación estudia el enmascaramiento de acciones adversario en el aprendizaje por refuerzo de auto-juego, donde un atacante elimina selectivamente acciones legales del conjunto de acciones de una víctima. El estudio encontró que el enmascaramiento aprendido causa un daño sustancialmente mayor que el enmascaramiento aleatorio, identificando la disponibilidad de acciones como una superficie de robustez distinta en el RL de auto-juego.

reinforcement learning security self-play adversarial attacks

RESEARCHarXiv CS.LG·hace 12d

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Este estudio desarrolla un marco de aprendizaje por refuerzo de autoaprendizaje para el juego de cartas Big 2 con información imperfecta. La investigación demuestra que PPO supera a otros agentes de aproximación de valor y se beneficia de la regularización de entropía y el autoaprendizaje de la política actual.

reinforcement learning learning self-play imperfect-information-games

RESEARCHarXiv CS.AI·21/4/2026

Heterogeneous Self-Play for Realistic Highway Traffic Simulation

PHASE (Policy for Heterogeneous Agent Self-play on Expressway) es un marco de autoaprendizaje consciente del contexto diseñado para la simulación realista de tráfico en autopistas. Aborda los desafíos de una amplia cobertura de escenarios, la generación controlable de situaciones raras y críticas para la seguridad, e interacciones multiagente creíbles, soportando también diferentes perfiles de vehículos.

traffic management self-play Autonomous Vehicles AI

RESEARCHarXiv CS.CL·7/4/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

mathematical reasoning diversity Co-evolution self-play