RESEARCHarXiv CS.LG·15/04/2026
How Transformers Learn to Plan via Multi-Token Prediction
Este artigo investiga como a Previsão Multi-Token (MTP) permite que os Transformers aprendam a planejar, superando a Previsão de Próximo Token (NTP). Empiricamente, a MTP melhora o desempenho em tarefas de raciocínio e, teoricamente, induz um processo de raciocínio reverso de duas etapas através do desacoplamento de gradientes.
27