← heapsort-ai

llama.cpp

33 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/11/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

Die Intel Arc Pro B70 32GB Karte erreichte auf Qwen3.5-27B@Q4 ~12 tps bei einzelnen Anfragen und 135 tps bei 32 gleichzeitigen Anfragen, was 20% weniger ist als bei der RTX PRO 4500. Außerdem verbrauchte sie bei hoher Parallelität 50% mehr Strom, wobei Tensor-Parallelisierung die Leistung verschlechterte, während Pipeline-Parallelisierung sie verbesserte.

43
DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Dieser Inhalt beschreibt die Implementierung von Multi-Token Prediction (MTP) mit quantisierten GGUFs für Qwen3-27B, wobei Unsloths UD XL Quantisierungen mit aufgepfropften Q8_0 MTP-Layern verwendet werden, was zu einem 2,5-fachen Durchsatz führt. Der Autor teilt gepfropfte GGUF-Dateien, den Quellcode der MTP-Layer und ein Konvertierungsskript, zusammen mit Build-Anleitungen für eine angepasste llama.cpp-Version, die die spekulative Dekodierungsunterstützung aus einem noch nicht zusammengeführten PR enthält.

43
DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Dieser Inhalt beschreibt, wie man mit Qwen 3.6 27B und MTP-Unterstützung in llama.cpp eine 2,5-mal schnellere Inferenz erreicht, was 28 Tok/s auf einem M2 Max ermöglicht. Es werden konvertierte GGUF-Dateien zum Download bereitgestellt, die sich für lokale Agentenprogrammierung mit 262k Kontext auf 48GB eignen.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·5/7/2026

why llama.cpp can’t combine speculative decode methods?

Ein Benutzer untersucht, warum spekulative Dekodierungsmethoden wie MTP und N-gramm in llama.cpp nicht gleichzeitig kombiniert werden können, wobei N-gramm erhebliche Verbesserungen für das agentische Programmieren bietet. Er möchte wissen, ob dies eine grundlegende oder implementierungsbedingte Einschränkung ist, und stellt fest, dass andere dieselbe Frage bereits gestellt haben.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Dieser Artikel beschreibt eine neuartige dynamische Expertencaching-Strategie, die in llama.cpp implementiert wurde, um die Token-Generierung für große MoE-Modelle wie Qwen3.5-122B-A10B zu beschleunigen. Dieser Ansatz lädt häufig genutzte Experten in den VRAM, was zu einer bis zu 26,8 % schnelleren Token-Generierung im Vergleich zur schichtbasierten partiellen Auslagerung führt.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 18T

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Dieser Inhalt behandelt eine Herausforderung in llama.cpp bezüglich der asymmetrischen KV q8/q4 Cache-Quantisierung, die zur CPU-Verarbeitung unter CUDA führen kann. Eine GitHub-Diskussion zeigt, dass das Kompilieren mit einer spezifischen KV-Cache-Quantisierungskombination erhebliche Speichereinsparungen bei nur 1,3 % Präzisionsverlust ermöglicht.

42
NEWS↑ trendingReddit r/LocalLLaMA·5/4/2026

Llama.cpp MTP support now in beta!

Die MTP-Unterstützung für llama.cpp befindet sich jetzt in der Beta-Phase, mit anfänglicher Unterstützung für Qwen3.5 MTP und dem Potenzial für eine baldige Zusammenführung. Diese Verbesserung, zusammen mit der Reifung der Tensor-Parallel-Unterstützung, wird voraussichtlich die Leistungsunterschiede zwischen llama.cpp und vLLM, insbesondere bei der Token-Generierungsgeschwindigkeit, beseitigen.

Llama.cpp MTP support now in beta!
42
DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

Get faster qwen 3.6 27b

Der Inhalt beschreibt, wie man mit dem Qwen 3.6 27B-Modell unter Verwendung von llama.cpp auf einer 3090 GPU eine schnellere Leistung erzielt. Es enthält Schritte zur Anwendung eines spezifischen Commits und `llama-server`-Einrichtungsbefehle, um 50 t/s bei 100k Kontext zu erreichen.

42
DOC↑ trendingReddit r/LocalLLaMA·vor 27T

llama.cpp docker images to run MTP models

Dieser Inhalt beschreibt die Erstellung von Docker-Images für `llama.cpp`, um die Ausführung von MTP-Modellen nach zahlreichen Verbesserungen und Fehlerbehebungen zu vereinfachen. Es wird auch erwähnt, dass Unsloth neue MTP-Modelle für Qwen 3.6 veröffentlicht hat, wodurch frühere Versionen obsolet werden.

41