← heapsort-ai

self-play

5 items

RESEARCHarXiv CS.LG·il y a 21j

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Cette recherche étudie le masquage d'actions adversaire dans l'apprentissage par renforcement en auto-apprentissage, où un attaquant supprime sélectivement des actions légales de l'ensemble d'actions d'une victime. L'étude a révélé que le masquage appris cause des dommages considérablement plus importants que le masquage aléatoire, identifiant la disponibilité des actions comme une surface de robustesse distincte dans le RL en auto-apprentissage.

27
RESEARCHarXiv CS.AI·21/04/2026

Heterogeneous Self-Play for Realistic Highway Traffic Simulation

PHASE (Policy for Heterogeneous Agent Self-play on Expressway) est un cadre d'auto-apprentissage conscient du contexte, conçu pour une simulation réaliste du trafic routier. Il répond aux défis d'une large couverture de scénarios, de la génération contrôlable de situations rares et critiques pour la sécurité, et d'interactions multi-agents crédibles, tout en supportant divers profils de véhicules.

27
RESEARCHarXiv CS.CL·07/04/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

27