self-play

5 items

RESEARCHarXiv CS.LG·08/04/2026

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Este trabalho apresenta o ambiente Territory Paint Wars para investigar modos de falha do PPO em aprendizado por reforço multiagente competitivo. Ele identifica falhas de implementação que causam baixo desempenho e, após a correção, revela um novo problema de overfitting competitivo que prejudica a generalização.

failure modes reinforcement learning self-play PPO

RESEARCHarXiv CS.LG·21d atrás

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Esta pesquisa estuda a remoção adversarial de ações em aprendizagem por reforço auto-supervisionada, onde um atacante remove seletivamente ações legais do conjunto de ações de uma vítima. O estudo revela que a mascaramento aprendido causa danos significativamente maiores do que o mascaramento aleatório, identificando a disponibilidade de ações como uma superfície de robustez distinta no RL auto-supervisionado.

reinforcement learning security self-play adversarial attacks

RESEARCHarXiv CS.LG·11d atrás

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Este estudo desenvolve uma estrutura de aprendizado por reforço (RL) de autoaprendizagem para o jogo de cartas Big 2, testando agentes sob informação imperfeita. A pesquisa demonstra que o PPO supera outras abordagens em termos de desempenho contra oponentes variados.

reinforcement learning learning self-play imperfect-information-games

RESEARCHarXiv CS.AI·21/04/2026

Heterogeneous Self-Play for Realistic Highway Traffic Simulation

PHASE (Policy for Heterogeneous Agent Self-play on Expressway) é uma estrutura de auto-jogo sensível ao contexto desenvolvida para simulação realista de tráfego rodoviário. Aborda os desafios de ampla cobertura de cenários, geração controlável de situações raras críticas de segurança e interações multiagente credíveis, suportando também diferentes perfis de veículos.

traffic management self-play Autonomous Vehicles AI

RESEARCHarXiv CS.CL·07/04/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

mathematical reasoning diversity Co-evolution self-play