Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR
Este contenido detalla la implementación de la Predicción Multitoken (MTP) con GGUF cuantificados para Qwen3-27B, utilizando cuantificaciones UD XL de Unsloth con capas MTP injertadas en Q8_0, lo que resulta en un aumento de rendimiento de 2,5x. El autor comparte archivos GGUF injertados, la fuente de la capa MTP y un script de conversión, junto con instrucciones de construcción para una versión personalizada de llama.cpp que incorpora soporte de decodificación especulativa de una PR no fusionada.