self-play

5 items

RESEARCHarXiv CS.LG·08/04/2026

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Este trabalho apresenta o ambiente Territory Paint Wars para investigar modos de falha do PPO em aprendizado por reforço multiagente competitivo. Ele identifica falhas de implementação que causam baixo desempenho e, após a correção, revela um novo problema de overfitting competitivo que prejudica a generalização.

failure modes reinforcement learning self-play PPO

RESEARCHarXiv CS.LG·il y a 21j

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Cette recherche étudie le masquage d'actions adversaire dans l'apprentissage par renforcement en auto-apprentissage, où un attaquant supprime sélectivement des actions légales de l'ensemble d'actions d'une victime. L'étude a révélé que le masquage appris cause des dommages considérablement plus importants que le masquage aléatoire, identifiant la disponibilité des actions comme une surface de robustesse distincte dans le RL en auto-apprentissage.

reinforcement learning security self-play adversarial attacks

RESEARCHarXiv CS.LG·il y a 11j

Self-Play Reinforcement Learning under Imperfect Information in Big 2

Cette étude développe un cadre d'apprentissage par renforcement (RL) auto-appris pour le jeu de cartes Big 2 à information imparfaite. Elle démontre que PPO surpasse les autres agents d'approximation de valeur et bénéficie de la régularisation de l'entropie et de l'auto-apprentissage de la politique actuelle.

reinforcement learning learning self-play imperfect-information-games

RESEARCHarXiv CS.AI·21/04/2026

Heterogeneous Self-Play for Realistic Highway Traffic Simulation

PHASE (Policy for Heterogeneous Agent Self-play on Expressway) est un cadre d'auto-apprentissage conscient du contexte, conçu pour une simulation réaliste du trafic routier. Il répond aux défis d'une large couverture de scénarios, de la génération contrôlable de situations rares et critiques pour la sécurité, et d'interactions multi-agents crédibles, tout en supportant divers profils de véhicules.

traffic management self-play Autonomous Vehicles AI

RESEARCHarXiv CS.CL·07/04/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

mathematical reasoning diversity Co-evolution self-play