RESEARCH27
How Transformers Learn to Plan via Multi-Token Prediction
arXiv CS.LG·15 de abril de 2026
Este artigo investiga como a Previsão Multi-Token (MTP) permite que os Transformers aprendam a planejar, superando a Previsão de Próximo Token (NTP). Empiricamente, a MTP melhora o desempenho em tarefas de raciocínio e, teoricamente, induz um processo de raciocínio reverso de duas etapas através do desacoplamento de gradientes.
Ler original ↗