RESEARCHarXiv CS.LG·15/04/2026
How Transformers Learn to Plan via Multi-Token Prediction
Cet article examine comment la prédiction multi-jetons (MTP) permet aux Transformers d'apprendre à planifier, surpassant la prédiction du jeton suivant (NTP). Empiriquement, la MTP améliore les performances sur les tâches de raisonnement, et théoriquement, elle induit un processus de raisonnement inverse en deux étapes via le découplage des gradients.
27