A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning
Este artículo demuestra que un umbral en la capacidad de decisión rige el colapso en agentes de aprendizaje por refuerzo de auto-juego bajo perturbaciones de reglas. La eliminación de todas las decisiones contingentes de alcance positivo provoca un colapso rápido, mientras que preservar incluso una sola evita esta caída.