Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR
Ce contenu détaille l'implémentation de la prédiction multi-jetons (MTP) avec des GGUF quantifiés pour Qwen3-27B, en utilisant les quantifications UD XL d'Unsloth avec des couches MTP greffées en Q8_0, ce qui entraîne une augmentation de débit de 2,5x. L'auteur partage les fichiers GGUF greffés, la source de la couche MTP et un script de conversion, ainsi que des instructions de compilation pour une version personnalisée de llama.cpp intégrant le support du décodage spéculatif d'une PR non fusionnée.