Speculative Decoding

18 items

RESEARCH↑ trendingReddit r/LocalLLaMA·4/11/2026

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Dieser Inhalt beschreibt eine native DFlash-Implementierung auf MLX für Apple Silicon, die die Token-Generierung in Qwen-Modellen erheblich beschleunigt. Die spekulative Dekodierungstechnik erreicht Beschleunigungen von bis zu 3,3x bei gleichbleibender Ausgabequalität.

apple-silicon MLX Qwen LLM performance

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Dieser Inhalt beschreibt die Implementierung von Multi-Token Prediction (MTP) mit quantisierten GGUFs für Qwen3-27B, wobei Unsloths UD XL Quantisierungen mit aufgepfropften Q8_0 MTP-Layern verwendet werden, was zu einem 2,5-fachen Durchsatz führt. Der Autor teilt gepfropfte GGUF-Dateien, den Quellcode der MTP-Layer und ein Konvertierungsskript, zusammen mit Build-Anleitungen für eine angepasste llama.cpp-Version, die die spekulative Dekodierungsunterstützung aus einem noch nicht zusammengeführten PR enthält.

Multi-Token Prediction llama.cpp quantization large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

Der Inhalt beschreibt ein Experiment, das erhebliche Geschwindigkeitssteigerungen (bis zu 68.35 Tokens/s) durch spekulatives Decoding mit dem Qwen-3.6-27B Modell über llamacpp zeigt. Der Autor demonstriert die Fähigkeit der KI, Code effizient zu generieren und zu debuggen.

Benchmarking AI performance Speculative Decoding LLM

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

ARTICLE↑ trendingReddit r/LocalLLaMA·5/7/2026

why llama.cpp can’t combine speculative decode methods?

Ein Benutzer untersucht, warum spekulative Dekodierungsmethoden wie MTP und N-gramm in llama.cpp nicht gleichzeitig kombiniert werden können, wobei N-gramm erhebliche Verbesserungen für das agentische Programmieren bietet. Er möchte wissen, ob dies eine grundlegende oder implementierungsbedingte Einschränkung ist, und stellt fest, dass andere dieselbe Frage bereits gestellt haben.

Optimization LLMs llama.cpp Qwen3.6

NEWS↑ trendingReddit r/LocalLLaMA·4/27/2026

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Luce DFlash stellt einen GGUF-Port der DFlash spekulativen Dekodierung für Qwen3.6-27B vor, der auf einer einzelnen RTX 3090 fast den doppelten Durchsatz erreicht. Dieser eigenständige C++/CUDA-Stack, als MIT-lizenzierte Open-Source-Software verfügbar, steigert die LLM-Leistung auf Consumer-Hardware erheblich.

Open Source Optimization performance Speculative Decoding

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

ARTICLE↑ trendingReddit r/LocalLLaMA·4/12/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Tests zum spekulativen Decoding, bei denen Gemma 4 E2B als Entwurf für Gemma 4 31B verwendet wurde, zeigten eine bemerkenswerte Leistungsverbesserung. Die durchschnittliche Geschwindigkeit stieg um 29 %, erreichte in der Codegenerierung sogar 50 %, und das mit spezifischen Hard- und Softwarekonfigurationen.

Gemma 4 31B llama.cpp benchmark AI performance

RESEARCH↑ trendingReddit r/MachineLearning·4/26/2026

Speculative Decoding Implementations: EAGLE-3, Medusa-1, PARD, Draft Models, N-gram and Suffix Decoding from scratch [P]

Ein neues edukatives Implementierungs-Repository für spekulatives Decoding wurde veröffentlicht, das verschiedene Methoden wie EAGLE-3 und Medusa-1 von Grund auf implementiert, um das Studium der Unterschiede zwischen Proposer-Designs zu erleichtern. Es umfasst Trainings- und Inferenzpfade für Modelle wie Qwen/Qwen2.5-7B-Instruct und zielt darauf ab, den Unterschied zwischen Proposer-Qualität und Verifizierer-Kosten sowie die Ursache, warum eine hohe Akzeptanzrate nicht immer einen höheren Durchsatz bedeutet, zu verdeutlichen.

Software Development machine learning AI optimization Speculative Decoding

RESEARCHarXiv CS.CL·vor 7T

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Dieses Papier schlägt SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) vor, um Retrieval-basierte Spekulative Dekodierung (RSD) für LLMs zu verbessern. SENSE adressiert die starren lexikalischen Abhängigkeiten von RSD, indem es robuste semantische Ausrichtung und ein Soft-gated Evaluationsmodul verwendet, um semantische Äquivalenz zu validieren.

LLMs NLP Inference Optimization Speculative Decoding

RESEARCHarXiv CS.LG·4/23/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Diese Arbeit bewertet spekulatives Decoding mit EAGLE3 zur Optimierung des PayPal Commerce Agenten, der auf feinabgestimmten Nemotron-Modellen basiert. Die Studie zeigt signifikante Leistungsverbesserungen, darunter eine Steigerung des Durchsatzes um 22-49% und eine Latenzreduktion um 18-33% ohne zusätzliche Hardwarekosten.

Performance benchmarking LLM optimization Inference acceleration large language models

RESEARCHarXiv CS.LG·4/23/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, ein 15 Milliarden Parameter großer Supernet, wurde veröffentlicht, der vier trainierte Mixer-Optionen pro Decoder-Schicht bietet, um mehrere Geschwindigkeits-/Qualitätseinstellungen aus einem einzigen Checkpoint zu ermöglichen. Dies führt zu einem 2.9x bis 10.7x höheren Decodierungsdurchsatz bei einer Qualitätserhaltung von 96% bis 77% und ermöglicht auch die spekulative Decodierung ohne ein separates Entwurfsmodell.

neural network architecture Performance optimization attention mechanisms large language models

RESEARCHDEV.to AI·vor 22T

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Dieser Inhalt beschreibt ein dreimonatiges Experiment zur Optimierung der Dekodierungsleistung des Qwen3.6-27B-Modells auf einer RTX 3090 Ti GPU. Das Projekt verbesserte erfolgreich die Dekodierungsgeschwindigkeit von 43 auf 39-49 Token pro Sekunde unter Verwendung einer neuen spekulativen Dekodierungstechnik (MTP) in llama.cpp.

LLM optimization llama.cpp Qwen3.6-27B GPU performance

RESEARCHarXiv CS.CL·4/30/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV ist eine neuartige spekulative Decodierungsmethode, die Multi-Draft- und Greedy-Block-Verifizierung vereint, um die Inferenz von Sprachmodellen zu beschleunigen. Sie formuliert den Verifizierungsschritt als optimales Transportproblem, was die theoretische Effizienz und die empirische Leistung verbessert, indem sie die optimal erreichbare erwartete Akzeptanzlänge erreicht.

large language models Inference Optimization Speculative Decoding AI Research

RESEARCHarXiv CS.AI·5/7/2026

Parallel Prefix Verification for Speculative Generation

PARSE (PArallel pRefix Speculative Engine) ist ein neues Framework für spekulative Generierung, das die Inferenz großer Sprachmodelle (LLMs) beschleunigt. Dies gelingt durch die Parallelisierung der Präfixverifizierung auf semantischer Ebene, wodurch bestehende Einschränkungen durch die Bewertung der Korrektheit über mehrere Präfixe in einem einzigen Durchlauf überwunden werden.

inference AI acceleration parallelization Speculative Decoding

RESEARCHarXiv CS.CL·4/21/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Diese Forschung bewertet spekulatives Decoding für polnische LLMs auf Apple Silicon und erweitert das MLX-LM-Framework um Universal Assisted Generation (UAG) für Cross-Tokenizer-Kompatibilität. Experimente zeigen, dass kontextbewusste Token-Übersetzung die Akzeptanzraten für Bielik 11B auf polnischsprachigen Datensätzen signifikant verbessert.

apple-silicon natural language processing Inference Optimization Speculative Decoding

RESEARCHarXiv CS.CL·vor 12T

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec stellt ein Framework für die Echtzeitentwicklung von Entwurfsmodellen in der spekulativen Dekodierung für große Sprachmodelle vor, das das Problem großer Vokabulargrößen angeht. Es verwendet dynamische Vokabular- und Parameteranpassung mittels eines kontextsensitiven Mechanismus und einer leichten Online-Abgleichstrategie zur Verbesserung der Akzeptanzraten und Minimierung von Verteilungsunterschieden.

Optimization machine learning large language models AI inference

RESEARCHTogether AI Blog·3/31/2026

Aurora

Aurora ist ein Open-Source-RL-Framework, das entwickelt wurde, um spekulatives Dekodieren selbst zu verbessern, indem es von jeder bedienten Anfrage lernt. Es erzielt eine 1,25-fache Leistungssteigerung gegenüber gut trainierten statischen Spekulatoren.

Open Source AI Framework reinforcement learning Performance Improvement

NEWSDEV.to AI·4/15/2026

AWS Speed Boosts, Agentic Limits, and Clinical AI Advances

AWS optimiert die LLM-Inferenz mit spekulativer Dekodierung auf Trainium und vLLM, und das Spring AI SDK für Bedrock AgentCore ist jetzt allgemein verfügbar. Neue Forschung untersucht zudem Fehler in agentischen Systemen, die Quantifizierung von CNN-Unsicherheiten und die Rolle von LLMs im klinischen Denken.

Clinical AI AWS LLM inference Agentic AI

ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

Speculative decoding question, 665% speed increase

Eine Frage zur spekulativen Dekodierung hebt eine bemerkenswerte Geschwindigkeitssteigerung von 665 % hervor. Dieses Thema deutet auf eine technische Diskussion über die Optimierung von KI-Modellen hin.

deep learning AI performance model optimization speed improvement