DOC↑ trending43

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Reddit r/LocalLLaMA·6 de maio de 2026

Este conteúdo detalha a implementação da Previsão Multi-Token (MTP) com GGUFs quantizados para Qwen3-27B, usando quantizações UD XL da Unsloth com camadas MTP enxertadas em Q8_0, resultando em um aumento de throughput de 2,5x. O autor compartilha arquivos GGUF enxertados, a fonte da camada MTP e um script de conversão, juntamente com instruções de construção para uma versão personalizada do llama.cpp que incorpora suporte a decodificação especulativa de um PR ainda não mesclado.

Multi-Token Prediction llama.cpp quantization large language models Speculative Decoding

Ler original ↗