← heapsort-ai

Multi-Token Prediction

2 items

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Este conteúdo detalha a implementação da Previsão Multi-Token (MTP) com GGUFs quantizados para Qwen3-27B, usando quantizações UD XL da Unsloth com camadas MTP enxertadas em Q8_0, resultando em um aumento de throughput de 2,5x. O autor compartilha arquivos GGUF enxertados, a fonte da camada MTP e um script de conversão, juntamente com instruções de construção para uma versão personalizada do llama.cpp que incorpora suporte a decodificação especulativa de um PR ainda não mesclado.

43