RESEARCH27

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

arXiv CS.LG·19 de maio de 2026

Esta pesquisa estuda a remoção adversarial de ações em aprendizagem por reforço auto-supervisionada, onde um atacante remove seletivamente ações legais do conjunto de ações de uma vítima. O estudo revela que a mascaramento aprendido causa danos significativamente maiores do que o mascaramento aleatório, identificando a disponibilidade de ações como uma superfície de robustez distinta no RL auto-supervisionado.

reinforcement learning security self-play adversarial attacks

Ler original ↗