← heapsort-ai

self-play

5 items

RESEARCHarXiv CS.LG·hace 22d

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Esta investigación estudia el enmascaramiento de acciones adversario en el aprendizaje por refuerzo de auto-juego, donde un atacante elimina selectivamente acciones legales del conjunto de acciones de una víctima. El estudio encontró que el enmascaramiento aprendido causa un daño sustancialmente mayor que el enmascaramiento aleatorio, identificando la disponibilidad de acciones como una superficie de robustez distinta en el RL de auto-juego.

27
RESEARCHarXiv CS.AI·21/4/2026

Heterogeneous Self-Play for Realistic Highway Traffic Simulation

PHASE (Policy for Heterogeneous Agent Self-play on Expressway) es un marco de autoaprendizaje consciente del contexto diseñado para la simulación realista de tráfico en autopistas. Aborda los desafíos de una amplia cobertura de escenarios, la generación controlable de situaciones raras y críticas para la seguridad, e interacciones multiagente creíbles, soportando también diferentes perfiles de vehículos.

27
RESEARCHarXiv CS.CL·7/4/2026

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

A pesquisa aborda a queda de diversidade em sistemas de co-evolução de LLMs, onde um modelo gera problemas e outro os resolve, comprometendo o aprendizado de currículo autônomo. Para resolver isso, introduz o 'vocabulary dropout', uma máscara aleatória para manter a diversidade, resultando em melhorias no desempenho de solvers em raciocínio matemático.

27