RESEARCH27
How Transformers Learn to Plan via Multi-Token Prediction
arXiv CS.LG·15. April 2026
Diese Arbeit untersucht, wie Multi-Token-Vorhersage (MTP) Transformer befähigt, Planen zu lernen, und dabei die Standard-Nächste-Token-Vorhersage (NTP) übertrifft. Empirisch verbessert MTP die Leistung bei Denkaufgaben durchgängig, und theoretisch induziert es einen zweistufigen umgekehrten Schlussfolgerungsprozess mittels Gradientenentkopplung.
Original lesen ↗