RESEARCHarXiv CS.LG·4/15/2026
How Transformers Learn to Plan via Multi-Token Prediction
Diese Arbeit untersucht, wie Multi-Token-Vorhersage (MTP) Transformer befähigt, Planen zu lernen, und dabei die Standard-Nächste-Token-Vorhersage (NTP) übertrifft. Empirisch verbessert MTP die Leistung bei Denkaufgaben durchgängig, und theoretisch induziert es einen zweistufigen umgekehrten Schlussfolgerungsprozess mittels Gradientenentkopplung.
27