Next-token prediction — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.LG·4/15/2026

How Transformers Learn to Plan via Multi-Token Prediction

Diese Arbeit untersucht, wie Multi-Token-Vorhersage (MTP) Transformer befähigt, Planen zu lernen, und dabei die Standard-Nächste-Token-Vorhersage (NTP) übertrifft. Empirisch verbessert MTP die Leistung bei Denkaufgaben durchgängig, und theoretisch induziert es einen zweistufigen umgekehrten Schlussfolgerungsprozess mittels Gradientenentkopplung.

Next-token prediction Planning Multi-Token Prediction Reasoning