Multi-Token Prediction

2 items

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Este conteúdo detalha a implementação da Previsão Multi-Token (MTP) com GGUFs quantizados para Qwen3-27B, usando quantizações UD XL da Unsloth com camadas MTP enxertadas em Q8_0, resultando em um aumento de throughput de 2,5x. O autor compartilha arquivos GGUF enxertados, a fonte da camada MTP e um script de conversão, juntamente com instruções de construção para uma versão personalizada do llama.cpp que incorpora suporte a decodificação especulativa de um PR ainda não mesclado.

Multi-Token Prediction llama.cpp quantization large language models

RESEARCHarXiv CS.LG·15/04/2026

How Transformers Learn to Plan via Multi-Token Prediction

Este artigo investiga como a Previsão Multi-Token (MTP) permite que os Transformers aprendam a planejar, superando a Previsão de Próximo Token (NTP). Empiricamente, a MTP melhora o desempenho em tarefas de raciocínio e, teoricamente, induz um processo de raciocínio reverso de duas etapas através do desacoplamento de gradientes.

Next-token prediction Planning Multi-Token Prediction Reasoning