heapsort
RESEARCH28

A Structural Threshold in Decision Capacity Governs Collapse in Self-Play Reinforcement Learning

arXiv CS.LG·19 de mayo de 2026

Este artículo demuestra que un umbral en la capacidad de decisión rige el colapso en agentes de aprendizaje por refuerzo de auto-juego bajo perturbaciones de reglas. La eliminación de todas las decisiones contingentes de alcance positivo provoca un colapso rápido, mientras que preservar incluso una sola evita esta caída.

Leer original