RESEARCH28
A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning
arXiv CS.LG·19 de mayo de 2026
Este artículo demuestra que un umbral en la capacidad de decisión rige el colapso en agentes de aprendizaje por refuerzo de auto-juego bajo perturbaciones de reglas. La eliminación de todas las decisiones contingentes de alcance positivo provoca un colapso rápido, mientras que preservar incluso una sola evita esta caída.
Leer original ↗