heapsort
RESEARCH27

How Transformers Learn to Plan via Multi-Token Prediction

arXiv CS.LG·15 de abril de 2026

Este artículo estudia cómo la Predicción Multi-Token (MTP) permite a los Transformers aprender a planificar, superando la Predicción de Siguiente Token (NTP). Empíricamente, MTP mejora el rendimiento en tareas de razonamiento, y teóricamente, induce un proceso de razonamiento inverso de dos etapas mediante el desacoplamiento de gradientes.

Leer original