← heapsort-ai

llama.cpp

33 items

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Ce contenu détaille l'implémentation de la prédiction multi-jetons (MTP) avec des GGUF quantifiés pour Qwen3-27B, en utilisant les quantifications UD XL d'Unsloth avec des couches MTP greffées en Q8_0, ce qui entraîne une augmentation de débit de 2,5x. L'auteur partage les fichiers GGUF greffés, la source de la couche MTP et un script de conversion, ainsi que des instructions de compilation pour une version personnalisée de llama.cpp intégrant le support du décodage spéculatif d'une PR non fusionnée.

43
DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Ce contenu détaille comment obtenir une inférence 2,5 fois plus rapide avec Qwen 3.6 27B en utilisant le support MTP dans llama.cpp, atteignant 28 tok/s sur un M2 Max. Il fournit des fichiers GGUF convertis à télécharger, adaptés au codage agentique local avec 262k de contexte sur 48GB.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·07/05/2026

why llama.cpp can’t combine speculative decode methods?

Un utilisateur se demande pourquoi les méthodes de décodage spéculatif comme MTP et N-gram ne peuvent pas être combinées simultanément dans llama.cpp, notant que N-gram apporte des améliorations significatives pour le codage agentique. Il cherche à savoir s'il s'agit d'une limitation fondamentale ou d'implémentation, et découvre que d'autres ont posé la même question.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Cet article détaille une nouvelle stratégie de cache d'experts dynamique dans llama.cpp pour accélérer la génération de jetons sur de grands modèles MoE comme Qwen3.5-122B-A10B. L'approche charge les experts fréquemment utilisés dans la VRAM, ce qui se traduit par une génération de jetons jusqu'à 26,8% plus rapide par rapport au déchargement partiel basé sur les couches.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

Le contenu détaille comment optimiser Qwen3.6-35B-A3B sur du matériel grand public (RTX 5070 Ti, Ryzen 9800X3D), atteignant 79 t/s avec 128K de contexte. La découverte majeure est l'utilisation correcte du flag `--n-cpu-moe N` dans llama.cpp, qui surpasse significativement le `--cpu-moe` commun en utilisant plus de VRAM GPU pour les experts MoE.

42
NEWS↑ trendingReddit r/LocalLLaMA·19/04/2026

llama.cpp speculative checkpointing was merged

Le "checkpointing spéculatif" a été intégré à llama.cpp, offrant des gains de vitesse potentiels. Certains prompts, notamment pour le codage avec des paramètres optimisés, peuvent bénéficier d'une accélération de 0% à 50%, tandis que d'autres pourraient ne pas voir d'amélioration en raison d'un faible taux d'acceptation du brouillon.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 18j

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Ce contenu aborde un défi dans llama.cpp concernant la quantification asymétrique du cache KV q8/q4, qui peut entraîner un traitement CPU sur CUDA. Une discussion GitHub souligne qu'une compilation avec une combinaison spécifique de quantification du cache KV permet des économies de mémoire substantielles avec une perte de précision minime de 1,3%.

42
NEWS↑ trendingReddit r/LocalLLaMA·04/05/2026

Llama.cpp MTP support now in beta!

Le support MTP de llama.cpp est maintenant en version bêta, avec un support initial pour Qwen3.5 MTP et une fusion potentielle prochaine. Cette amélioration, ainsi que le support tensor-parallel en maturation, devrait combler les écarts de performance entre llama.cpp et vLLM, notamment en termes de vitesse de génération de jetons.

Llama.cpp MTP support now in beta!
42
DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Get faster qwen 3.6 27b

Le contenu détaille comment obtenir des performances plus rapides avec le modèle Qwen 3.6 27B en utilisant llama.cpp sur un GPU 3090. Il comprend les étapes pour appliquer un commit spécifique et les commandes de configuration du `llama-server` afin d'atteindre 50 t/s avec un contexte de 100k.

42
DOC↑ trendingReddit r/LocalLLaMA·il y a 27j

llama.cpp docker images to run MTP models

Ce contenu décrit la création d'images Docker pour `llama.cpp` afin de simplifier l'exécution des modèles MTP, suite à de nombreuses améliorations et corrections de bugs. Il mentionne également qu'Unsloth a publié de nouveaux modèles MTP pour Qwen 3.6, rendant les versions précédentes obsolètes.

41