heapsort
RESEARCH27

How Transformers Learn to Plan via Multi-Token Prediction

arXiv CS.LG·15 de abril de 2026

Este artigo investiga como a Previsão Multi-Token (MTP) permite que os Transformers aprendam a planejar, superando a Previsão de Próximo Token (NTP). Empiricamente, a MTP melhora o desempenho em tarefas de raciocínio e, teoricamente, induz um processo de raciocínio reverso de duas etapas através do desacoplamento de gradientes.

Ler original