RESEARCH27

How Transformers Learn to Plan via Multi-Token Prediction

arXiv CS.LG·15. April 2026

Diese Arbeit untersucht, wie Multi-Token-Vorhersage (MTP) Transformer befähigt, Planen zu lernen, und dabei die Standard-Nächste-Token-Vorhersage (NTP) übertrifft. Empirisch verbessert MTP die Leistung bei Denkaufgaben durchgängig, und theoretisch induziert es einen zweistufigen umgekehrten Schlussfolgerungsprozess mittels Gradientenentkopplung.

Next-token prediction Planning Multi-Token Prediction Reasoning Transformers

Original lesen ↗