A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning
Cet article montre qu'un seuil dans la capacité de décision régit l'effondrement des agents d'apprentissage par renforcement en auto-apprentissage sous des perturbations asymétriques. L'élimination de toutes les décisions contingentes à portée positive entraîne un effondrement rapide, tandis que la conservation d'une seule de ces décisions empêche cet effondrement.