llama.cpp

33 items

DOC↑ trendingReddit r/LocalLLaMA·22/04/2026

Running Qwen3.6-35B-A3B Locally for Coding Agent: My Setup & Working Config

Ce contenu détaille une configuration pour exécuter le modèle Qwen3.6-35B-A3B localement sur un MacBook Pro M2 Max. Il décrit l'intégration avec l'agent de codage `pi` via `llama.cpp` et `llama-server`, incluant les paramètres de configuration et la configuration de la ligne de commande.

Coding Agent llama.cpp Local AI macOS

ARTICLE↑ trendingReddit r/LocalLLaMA·11/04/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

La carte Intel Arc Pro B70 32GB a atteint ~12 tps pour les requêtes uniques et 135 tps avec 32 concurrences sur Qwen3.5-27B@Q4, soit 20% de moins que la RTX PRO 4500. De plus, elle a consommé 50% plus d'énergie en forte concurrence, le parallélisme tensoriel dégradant les performances tandis que le parallélisme de pipeline les améliorait.

Qwen3.5 llama.cpp GPU performance Intel Arc Pro B70

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Ce contenu détaille l'implémentation de la prédiction multi-jetons (MTP) avec des GGUF quantifiés pour Qwen3-27B, en utilisant les quantifications UD XL d'Unsloth avec des couches MTP greffées en Q8_0, ce qui entraîne une augmentation de débit de 2,5x. L'auteur partage les fichiers GGUF greffés, la source de la couche MTP et un script de conversion, ainsi que des instructions de compilation pour une version personnalisée de llama.cpp intégrant le support du décodage spéculatif d'une PR non fusionnée.

Multi-Token Prediction llama.cpp quantization large language models

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Ce contenu détaille comment obtenir une inférence 2,5 fois plus rapide avec Qwen 3.6 27B en utilisant le support MTP dans llama.cpp, atteignant 28 tok/s sur un M2 Max. Il fournit des fichiers GGUF convertis à télécharger, adaptés au codage agentique local avec 262k de contexte sur 48GB.

LLM optimization llama.cpp GGUF Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·07/05/2026

why llama.cpp can’t combine speculative decode methods?

Un utilisateur se demande pourquoi les méthodes de décodage spéculatif comme MTP et N-gram ne peuvent pas être combinées simultanément dans llama.cpp, notant que N-gram apporte des améliorations significatives pour le codage agentique. Il cherche à savoir s'il s'agit d'une limitation fondamentale ou d'implémentation, et découvre que d'autres ont posé la même question.

Optimization LLMs llama.cpp Qwen3.6

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Cet article détaille une nouvelle stratégie de cache d'experts dynamique dans llama.cpp pour accélérer la génération de jetons sur de grands modèles MoE comme Qwen3.5-122B-A10B. L'approche charge les experts fréquemment utilisés dans la VRAM, ce qui se traduit par une génération de jetons jusqu'à 26,8% plus rapide par rapport au déchargement partiel basé sur les couches.

Token Generation llama.cpp VRAM Optimization MoE

NEWS↑ trendingReddit r/LocalLLaMA·07/05/2026

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

Le contenu annonce l'ajout du support du modèle MiMo v2.5 dans llama.cpp et décrit son architecture. MiMo v2.5 est un modèle Sparse MoE avec 310 milliards de paramètres totaux et 15 milliards activés, prenant en charge les modalités texte, image, vidéo et audio avec une longueur de contexte impressionnante.

multimodal AI Model Architecture llama.cpp MoE

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·09/04/2026

Gemma 4 on Llama.cpp should be stable now

A integração de correções no Llama.cpp resolveu problemas conhecidos do Gemma 4, tornando-o estável para uso. O conteúdo oferece dicas de execução, como uso de `--chat-template-file` e otimização de cache, além de alertar contra o uso do CUDA 13.2.

Technical Tips Gemma 4 llama.cpp performance

ARTICLE↑ trendingReddit r/LocalLLaMA·12/04/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Des tests de décodage spéculatif utilisant Gemma 4 E2B comme brouillon pour Gemma 4 31B ont révélé une amélioration notable des performances. La vitesse moyenne a augmenté de 29%, atteignant 50% pour la génération de code, avec des configurations matérielles et logicielles spécifiques.

Gemma 4 31B llama.cpp benchmark AI performance

ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

Le contenu détaille comment optimiser Qwen3.6-35B-A3B sur du matériel grand public (RTX 5070 Ti, Ryzen 9800X3D), atteignant 79 t/s avec 128K de contexte. La découverte majeure est l'utilisation correcte du flag `--n-cpu-moe N` dans llama.cpp, qui surpasse significativement le `--cpu-moe` commun en utilisant plus de VRAM GPU pour les experts MoE.

llama.cpp AI optimization MoE LLM performance

NEWS↑ trendingReddit r/LocalLLaMA·19/04/2026

llama.cpp speculative checkpointing was merged

Le "checkpointing spéculatif" a été intégré à llama.cpp, offrant des gains de vitesse potentiels. Certains prompts, notamment pour le codage avec des paramètres optimisés, peuvent bénéficier d'une accélération de 0% à 50%, tandis que d'autres pourraient ne pas voir d'amélioration en raison d'un faible taux d'acceptation du brouillon.

Open Source llama.cpp speculative-checkpointing AI inference

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 18j

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Ce contenu aborde un défi dans llama.cpp concernant la quantification asymétrique du cache KV q8/q4, qui peut entraîner un traitement CPU sur CUDA. Une discussion GitHub souligne qu'une compilation avec une combinaison spécifique de quantification du cache KV permet des économies de mémoire substantielles avec une perte de précision minime de 1,3%.

llama.cpp GPU optimization quantization KV cache

NEWS↑ trendingReddit r/LocalLLaMA·04/05/2026

Llama.cpp MTP support now in beta!

Le support MTP de llama.cpp est maintenant en version bêta, avec un support initial pour Qwen3.5 MTP et une fusion potentielle prochaine. Cette amélioration, ainsi que le support tensor-parallel en maturation, devrait combler les écarts de performance entre llama.cpp et vLLM, notamment en termes de vitesse de génération de jetons.

AI models Qwen3.5 MTP llama.cpp

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Get faster qwen 3.6 27b

Le contenu détaille comment obtenir des performances plus rapides avec le modèle Qwen 3.6 27B en utilisant llama.cpp sur un GPU 3090. Il comprend les étapes pour appliquer un commit spécifique et les commandes de configuration du `llama-server` afin d'atteindre 50 t/s avec un contexte de 100k.

llama.cpp AI optimization GPU performance GGUF

DOC↑ trendingReddit r/LocalLLaMA·15/04/2026

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

L'auteur partage une optimisation réussie pour faire fonctionner le modèle Qwen3.5-35B-A3B-UD-Q4_K_L sur une RTX 4060 Ti 16GB avec llama.cpp, atteignant 40-60 tokens/s avec un contexte de 64k. Le billet fournit la configuration `models.ini` détaillée et la commande de démarrage du serveur pour reproduire cette performance.

Hardware Acceleration AI Model Optimization llama.cpp local inference

RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 19j

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

L'auteur a atteint 110 tok/s avec 12GB de VRAM en utilisant ik_llama.cpp sur le modèle Qwen3.6 35B A3B, constatant une augmentation significative de la vitesse. Cette performance a dépassé celle de llama.cpp régulier après la fusion de son PR MTP.

GPU VRAM LLM optimization llama.cpp Benchmarking

ARTICLE↑ trendingReddit r/LocalLLaMA·20/04/2026

Why doesn't any OSS tool treat llama.cpp as a first class citizen?

Cet article se demande pourquoi `llama.cpp` n'est pas considéré comme un citoyen de première classe par les outils open source. Il explore l'intégration et la reconnaissance de `llama.cpp` dans l'écosystème OSS.

Open Source llama.cpp AI tools

DOC↑ trendingReddit r/LocalLLaMA·il y a 27j

llama.cpp docker images to run MTP models

Ce contenu décrit la création d'images Docker pour `llama.cpp` afin de simplifier l'exécution des modèles MTP, suite à de nombreuses améliorations et corrections de bugs. Il mentionne également qu'Unsloth a publié de nouveaux modèles MTP pour Qwen 3.6, rendant les versions précédentes obsolètes.

AI models Docker llama.cpp Qwen

NEWS↑ trendingReddit r/LocalLLaMA·09/04/2026

ggml: backend-agnostic tensor parallelism by JohannesGaessler · Pull Request #19378 · ggml-org/llama.cpp

A solicitação de pull request de JohannesGaessler sobre paralelismo de tensor agnóstico de backend para o projeto ggml-org/llama.cpp foi aprovada por Greganov. Este é um desenvolvimento importante para a eficiência e escalabilidade da inferência de modelos de IA.

llama.cpp tensor parallelism machine learning AI

NEWS↑ trendingReddit r/LocalLLaMA·12/04/2026

Audio processing landed in llama-server with Gemma-4

Llama.cpp (llama-server) prend désormais en charge le traitement audio avec la fonctionnalité Speech-to-Text (STT), intégrant les modèles Gemma-4 E2A et E4A. C'est une mise à jour importante pour la plateforme d'inférence de modèles de langage.

Gemma 4 audio processing llama.cpp llama-server

Audio processing landed in llama-server with Gemma-4