RESEARCH27
How Transformers Learn to Plan via Multi-Token Prediction
arXiv CS.LG·15 avril 2026
Cet article examine comment la prédiction multi-jetons (MTP) permet aux Transformers d'apprendre à planifier, surpassant la prédiction du jeton suivant (NTP). Empiriquement, la MTP améliore les performances sur les tâches de raisonnement, et théoriquement, elle induit un processus de raisonnement inverse en deux étapes via le découplage des gradients.
Lire l'original ↗