RESEARCHarXiv CS.LG·15/4/2026
How Transformers Learn to Plan via Multi-Token Prediction
Este artículo estudia cómo la Predicción Multi-Token (MTP) permite a los Transformers aprender a planificar, superando la Predicción de Siguiente Token (NTP). Empíricamente, MTP mejora el rendimiento en tareas de razonamiento, y teóricamente, induce un proceso de razonamiento inverso de dos etapas mediante el desacoplamiento de gradientes.
27