A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning
Diese Arbeit zeigt, dass eine Schwelle in der Entscheidungskapazität den Kollaps von Self-Play-Reinforcement-Learning-Agenten unter asymmetrischen Regelstörungen steuert. Die Eliminierung aller positive-reach kontingenten Entscheidungen führt zu einem schnellen Kollaps, während das Beibehalten einer einzigen solchen Entscheidung dies verhindert.