A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning
Este artigo revela que um limiar na capacidade de decisão determina o colapso de agentes de aprendizado por reforço em auto-jogo sob perturbações de regras. A eliminação de decisões contingentes com alcance positivo leva ao colapso, enquanto a preservação de apenas uma evita isso, com o fenômeno sendo reversível e intensificado pela aproximação de função.