Next-token prediction — artículos, noticias e investigación de IA

RESEARCHarXiv CS.LG·15/4/2026

How Transformers Learn to Plan via Multi-Token Prediction

Este artículo estudia cómo la Predicción Multi-Token (MTP) permite a los Transformers aprender a planificar, superando la Predicción de Siguiente Token (NTP). Empíricamente, MTP mejora el rendimiento en tareas de razonamiento, y teóricamente, induce un proceso de razonamiento inverso de dos etapas mediante el desacoplamiento de gradientes.

Next-token prediction Planning Multi-Token Prediction Reasoning