← heapsort-ai

self-play

5 items

RESEARCHarXiv CS.LG·vor 21T

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Diese Forschung untersucht die gegnerische Aktionsmaskierung im Self-Play Reinforcement Learning, bei der ein Angreifer selektiv legale Aktionen aus dem Aktionssatz eines Opfers entfernt. Die Studie ergab, dass erlerntes Maskieren wesentlich mehr Schaden anrichtet als zufälliges Maskieren, wodurch die Verfügbarkeit von Aktionen als kritische Robustheitsoberfläche im Self-Play RL identifiziert wird.

27
RESEARCHarXiv CS.AI·4/21/2026

Heterogeneous Self-Play for Realistic Highway Traffic Simulation

PHASE (Policy for Heterogeneous Agent Self-play on Expressway) ist ein kontextbewusstes Self-Play-Framework zur realistischen Autobahnverkehrssimulation. Es adressiert die Herausforderungen breiter Szenarioabdeckung, kontrollierbarer Generierung seltener sicherheitskritischer Situationen und glaubwürdiger Multi-Agenten-Interaktionen, wobei es auch verschiedene Fahrzeugprofile unterstützt.

27
RESEARCHarXiv CS.CL·4/7/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

27