RESEARCH27

How Transformers Learn to Plan via Multi-Token Prediction

arXiv CS.LG·15 avril 2026

Cet article examine comment la prédiction multi-jetons (MTP) permet aux Transformers d'apprendre à planifier, surpassant la prédiction du jeton suivant (NTP). Empiriquement, la MTP améliore les performances sur les tâches de raisonnement, et théoriquement, elle induit un processus de raisonnement inverse en deux étapes via le découplage des gradients.

Next-token prediction Planning Multi-Token Prediction Reasoning Transformers

Lire l'original ↗