Multi-Token Prediction

2 items

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Dieser Inhalt beschreibt die Implementierung von Multi-Token Prediction (MTP) mit quantisierten GGUFs für Qwen3-27B, wobei Unsloths UD XL Quantisierungen mit aufgepfropften Q8_0 MTP-Layern verwendet werden, was zu einem 2,5-fachen Durchsatz führt. Der Autor teilt gepfropfte GGUF-Dateien, den Quellcode der MTP-Layer und ein Konvertierungsskript, zusammen mit Build-Anleitungen für eine angepasste llama.cpp-Version, die die spekulative Dekodierungsunterstützung aus einem noch nicht zusammengeführten PR enthält.

Multi-Token Prediction llama.cpp quantization large language models

RESEARCHarXiv CS.LG·4/15/2026

How Transformers Learn to Plan via Multi-Token Prediction

Diese Arbeit untersucht, wie Multi-Token-Vorhersage (MTP) Transformer befähigt, Planen zu lernen, und dabei die Standard-Nächste-Token-Vorhersage (NTP) übertrifft. Empirisch verbessert MTP die Leistung bei Denkaufgaben durchgängig, und theoretisch induziert es einen zweistufigen umgekehrten Schlussfolgerungsprozess mittels Gradientenentkopplung.

Next-token prediction Planning Multi-Token Prediction Reasoning