llama.cpp

33 items

DOC↑ trendingReddit r/LocalLLaMA·4/22/2026

Running Qwen3.6-35B-A3B Locally for Coding Agent: My Setup & Working Config

Dieser Inhalt beschreibt ein Setup zum lokalen Ausführen des Qwen3.6-35B-A3B-Modells auf einem MacBook Pro M2 Max. Er detailliert die Integration mit dem `pi`-Codierungsagenten über `llama.cpp` und `llama-server`, einschließlich Konfigurationsparametern und Befehlszeileneinstellungen.

Coding Agent llama.cpp Local AI macOS

ARTICLE↑ trendingReddit r/LocalLLaMA·4/11/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

Die Intel Arc Pro B70 32GB Karte erreichte auf Qwen3.5-27B@Q4 ~12 tps bei einzelnen Anfragen und 135 tps bei 32 gleichzeitigen Anfragen, was 20% weniger ist als bei der RTX PRO 4500. Außerdem verbrauchte sie bei hoher Parallelität 50% mehr Strom, wobei Tensor-Parallelisierung die Leistung verschlechterte, während Pipeline-Parallelisierung sie verbesserte.

Qwen3.5 llama.cpp GPU performance Intel Arc Pro B70

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Dieser Inhalt beschreibt die Implementierung von Multi-Token Prediction (MTP) mit quantisierten GGUFs für Qwen3-27B, wobei Unsloths UD XL Quantisierungen mit aufgepfropften Q8_0 MTP-Layern verwendet werden, was zu einem 2,5-fachen Durchsatz führt. Der Autor teilt gepfropfte GGUF-Dateien, den Quellcode der MTP-Layer und ein Konvertierungsskript, zusammen mit Build-Anleitungen für eine angepasste llama.cpp-Version, die die spekulative Dekodierungsunterstützung aus einem noch nicht zusammengeführten PR enthält.

Multi-Token Prediction llama.cpp quantization large language models

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Dieser Inhalt beschreibt, wie man mit Qwen 3.6 27B und MTP-Unterstützung in llama.cpp eine 2,5-mal schnellere Inferenz erreicht, was 28 Tok/s auf einem M2 Max ermöglicht. Es werden konvertierte GGUF-Dateien zum Download bereitgestellt, die sich für lokale Agentenprogrammierung mit 262k Kontext auf 48GB eignen.

LLM optimization llama.cpp GGUF Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·5/7/2026

why llama.cpp can’t combine speculative decode methods?

Ein Benutzer untersucht, warum spekulative Dekodierungsmethoden wie MTP und N-gramm in llama.cpp nicht gleichzeitig kombiniert werden können, wobei N-gramm erhebliche Verbesserungen für das agentische Programmieren bietet. Er möchte wissen, ob dies eine grundlegende oder implementierungsbedingte Einschränkung ist, und stellt fest, dass andere dieselbe Frage bereits gestellt haben.

Optimization LLMs llama.cpp Qwen3.6

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Dieser Artikel beschreibt eine neuartige dynamische Expertencaching-Strategie, die in llama.cpp implementiert wurde, um die Token-Generierung für große MoE-Modelle wie Qwen3.5-122B-A10B zu beschleunigen. Dieser Ansatz lädt häufig genutzte Experten in den VRAM, was zu einer bis zu 26,8 % schnelleren Token-Generierung im Vergleich zur schichtbasierten partiellen Auslagerung führt.

Token Generation llama.cpp VRAM Optimization MoE

NEWS↑ trendingReddit r/LocalLLaMA·5/7/2026

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

Der Inhalt kündigt die Unterstützung des MiMo v2.5-Modells in llama.cpp an und beschreibt dessen Architektur. MiMo v2.5 ist ein Sparse MoE-Modell mit insgesamt 310 Milliarden und 15 Milliarden aktivierten Parametern, das Text-, Bild-, Video- und Audio-Modalitäten mit einer beeindruckenden Kontextlänge unterstützt.

multimodal AI Model Architecture llama.cpp MoE

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·4/9/2026

Gemma 4 on Llama.cpp should be stable now

A integração de correções no Llama.cpp resolveu problemas conhecidos do Gemma 4, tornando-o estável para uso. O conteúdo oferece dicas de execução, como uso de `--chat-template-file` e otimização de cache, além de alertar contra o uso do CUDA 13.2.

Technical Tips Gemma 4 llama.cpp performance

ARTICLE↑ trendingReddit r/LocalLLaMA·4/12/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Tests zum spekulativen Decoding, bei denen Gemma 4 E2B als Entwurf für Gemma 4 31B verwendet wurde, zeigten eine bemerkenswerte Leistungsverbesserung. Die durchschnittliche Geschwindigkeit stieg um 29 %, erreichte in der Codegenerierung sogar 50 %, und das mit spezifischen Hard- und Softwarekonfigurationen.

Gemma 4 31B llama.cpp benchmark AI performance

ARTICLE↑ trendingReddit r/LocalLLaMA·4/18/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

Die Optimierung von Qwen3.6-35B-A3B auf Consumer-Hardware (RTX 5070 Ti, Ryzen 9800X3D) erreicht 79 t/s mit 128K Kontext. Der Schlüssel ist die korrekte Verwendung von `--n-cpu-moe N` in llama.cpp, was `--cpu-moe` übertrifft, indem es mehr GPU-VRAM für MoE-Experten nutzt.

llama.cpp AI optimization MoE LLM performance

NEWS↑ trendingReddit r/LocalLLaMA·4/19/2026

llama.cpp speculative checkpointing was merged

Die "speculative checkpointing"-Funktion wurde in llama.cpp integriert und bietet potenzielle Geschwindigkeitsvorteile. Während einige Prompts, wie beim Codieren mit optimierten Parametern, eine Beschleunigung von 0% bis 50% erfahren können, profitieren andere möglicherweise nicht aufgrund geringer Entwurfsakzeptanzraten.

Open Source llama.cpp speculative-checkpointing AI inference

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 18T

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Dieser Inhalt behandelt eine Herausforderung in llama.cpp bezüglich der asymmetrischen KV q8/q4 Cache-Quantisierung, die zur CPU-Verarbeitung unter CUDA führen kann. Eine GitHub-Diskussion zeigt, dass das Kompilieren mit einer spezifischen KV-Cache-Quantisierungskombination erhebliche Speichereinsparungen bei nur 1,3 % Präzisionsverlust ermöglicht.

llama.cpp GPU optimization quantization KV cache

NEWS↑ trendingReddit r/LocalLLaMA·5/4/2026

Llama.cpp MTP support now in beta!

Die MTP-Unterstützung für llama.cpp befindet sich jetzt in der Beta-Phase, mit anfänglicher Unterstützung für Qwen3.5 MTP und dem Potenzial für eine baldige Zusammenführung. Diese Verbesserung, zusammen mit der Reifung der Tensor-Parallel-Unterstützung, wird voraussichtlich die Leistungsunterschiede zwischen llama.cpp und vLLM, insbesondere bei der Token-Generierungsgeschwindigkeit, beseitigen.

AI models Qwen3.5 MTP llama.cpp

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

Get faster qwen 3.6 27b

Der Inhalt beschreibt, wie man mit dem Qwen 3.6 27B-Modell unter Verwendung von llama.cpp auf einer 3090 GPU eine schnellere Leistung erzielt. Es enthält Schritte zur Anwendung eines spezifischen Commits und `llama-server`-Einrichtungsbefehle, um 50 t/s bei 100k Kontext zu erreichen.

llama.cpp AI optimization GPU performance GGUF

DOC↑ trendingReddit r/LocalLLaMA·4/15/2026

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

Der Autor teilt eine erfolgreiche Optimierung zum Betrieb des Qwen3.5-35B-A3B-UD-Q4_K_L Modells auf einer RTX 4060 Ti 16GB mittels llama.cpp, wodurch 40-60 Token/s bei 64k Kontext erreicht werden. Der Beitrag liefert die detaillierte `models.ini`-Konfiguration und den Serverstartbefehl, um diese Leistung zu reproduzieren.

Hardware Acceleration AI Model Optimization llama.cpp local inference

RESEARCH↑ trendingReddit r/LocalLLaMA·vor 19T

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

Der Autor erreichte 110 tok/s mit 12GB VRAM unter Verwendung von ik_llama.cpp auf dem Qwen3.6 35B A3B Modell und verzeichnete einen erheblichen Geschwindigkeitszuwachs. Diese Leistung übertraf die von regulärem llama.cpp nach dem MTP PR Merge.

GPU VRAM LLM optimization llama.cpp Benchmarking

ARTICLE↑ trendingReddit r/LocalLLaMA·4/20/2026

Why doesn't any OSS tool treat llama.cpp as a first class citizen?

Dieser Artikel hinterfragt, warum `llama.cpp` von Open-Source-Tools nicht als erstklassig behandelt wird. Er diskutiert die Integration und Anerkennung von `llama.cpp` im OSS-Ökosystem.

Open Source llama.cpp AI tools

DOC↑ trendingReddit r/LocalLLaMA·vor 27T

llama.cpp docker images to run MTP models

Dieser Inhalt beschreibt die Erstellung von Docker-Images für `llama.cpp`, um die Ausführung von MTP-Modellen nach zahlreichen Verbesserungen und Fehlerbehebungen zu vereinfachen. Es wird auch erwähnt, dass Unsloth neue MTP-Modelle für Qwen 3.6 veröffentlicht hat, wodurch frühere Versionen obsolet werden.

AI models Docker llama.cpp Qwen

NEWS↑ trendingReddit r/LocalLLaMA·4/9/2026

ggml: backend-agnostic tensor parallelism by JohannesGaessler · Pull Request #19378 · ggml-org/llama.cpp

A solicitação de pull request de JohannesGaessler sobre paralelismo de tensor agnóstico de backend para o projeto ggml-org/llama.cpp foi aprovada por Greganov. Este é um desenvolvimento importante para a eficiência e escalabilidade da inferência de modelos de IA.

llama.cpp tensor parallelism machine learning AI

NEWS↑ trendingReddit r/LocalLLaMA·4/12/2026

Audio processing landed in llama-server with Gemma-4

Llama.cpp (llama-server) unterstützt nun offiziell Speech-to-Text (STT)-Funktionen durch die Integration der Gemma-4 E2A- und E4A-Modelle. Dieses Update bringt fortschrittliche Audioverarbeitung auf die beliebte Open-Source-Plattform für KI-Inferenz.

Gemma 4 audio processing llama.cpp llama-server

Audio processing landed in llama-server with Gemma-4