self-play

5 items

RESEARCHarXiv CS.LG·4/8/2026

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Este trabalho apresenta o ambiente Territory Paint Wars para investigar modos de falha do PPO em aprendizado por reforço multiagente competitivo. Ele identifica falhas de implementação que causam baixo desempenho e, após a correção, revela um novo problema de overfitting competitivo que prejudica a generalização.

failure modes reinforcement learning self-play PPO

RESEARCHarXiv CS.LG·vor 21T

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Diese Forschung untersucht die gegnerische Aktionsmaskierung im Self-Play Reinforcement Learning, bei der ein Angreifer selektiv legale Aktionen aus dem Aktionssatz eines Opfers entfernt. Die Studie ergab, dass erlerntes Maskieren wesentlich mehr Schaden anrichtet als zufälliges Maskieren, wodurch die Verfügbarkeit von Aktionen als kritische Robustheitsoberfläche im Self-Play RL identifiziert wird.

reinforcement learning security self-play adversarial attacks

RESEARCHarXiv CS.LG·vor 11T

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Diese Studie entwickelt ein Self-Play-Reinforcement-Learning-Framework für das Kartenspiel Big 2 mit unvollständigen Informationen. Die Forschung zeigt, dass PPO andere wertapproximierende Agenten übertrifft und von Entropieregulierung sowie aktuellem Policy-Self-Play profitiert.

reinforcement learning learning self-play imperfect-information-games

RESEARCHarXiv CS.AI·4/21/2026

Heterogeneous Self-Play for Realistic Highway Traffic Simulation

PHASE (Policy for Heterogeneous Agent Self-play on Expressway) ist ein kontextbewusstes Self-Play-Framework zur realistischen Autobahnverkehrssimulation. Es adressiert die Herausforderungen breiter Szenarioabdeckung, kontrollierbarer Generierung seltener sicherheitskritischer Situationen und glaubwürdiger Multi-Agenten-Interaktionen, wobei es auch verschiedene Fahrzeugprofile unterstützt.

traffic management self-play Autonomous Vehicles AI

RESEARCHarXiv CS.CL·4/7/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

mathematical reasoning diversity Co-evolution self-play