Speculative Decoding

18 items

RESEARCH↑ trendingReddit r/LocalLLaMA·11/04/2026

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Ce contenu décrit une implémentation native de DFlash en MLX pour Apple Silicon, qui accélère considérablement la génération de jetons pour les modèles Qwen. La technique de décodage spéculatif permet d'atteindre des accélérations allant jusqu'à 3.3x tout en maintenant une qualité de sortie identique.

apple-silicon MLX Qwen LLM performance

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Ce contenu détaille l'implémentation de la prédiction multi-jetons (MTP) avec des GGUF quantifiés pour Qwen3-27B, en utilisant les quantifications UD XL d'Unsloth avec des couches MTP greffées en Q8_0, ce qui entraîne une augmentation de débit de 2,5x. L'auteur partage les fichiers GGUF greffés, la source de la couche MTP et un script de conversion, ainsi que des instructions de compilation pour une version personnalisée de llama.cpp intégrant le support du décodage spéculatif d'une PR non fusionnée.

Multi-Token Prediction llama.cpp quantization large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

Le contenu décrit une expérience démontrant des gains de vitesse significatifs (jusqu'à 68.35 tokens/s) en utilisant le décodage spéculatif avec le modèle Qwen-3.6-27B via llamacpp. L'auteur met en évidence la capacité de l'IA à générer et déboguer du code efficacement.

Benchmarking AI performance Speculative Decoding LLM

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

ARTICLE↑ trendingReddit r/LocalLLaMA·07/05/2026

why llama.cpp can’t combine speculative decode methods?

Un utilisateur se demande pourquoi les méthodes de décodage spéculatif comme MTP et N-gram ne peuvent pas être combinées simultanément dans llama.cpp, notant que N-gram apporte des améliorations significatives pour le codage agentique. Il cherche à savoir s'il s'agit d'une limitation fondamentale ou d'implémentation, et découvre que d'autres ont posé la même question.

Optimization LLMs llama.cpp Qwen3.6

NEWS↑ trendingReddit r/LocalLLaMA·27/04/2026

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Luce DFlash introduit un port GGUF du décodage spéculatif DFlash pour Qwen3.6-27B, atteignant près de 2x le débit sur une seule RTX 3090. Cette pile C++/CUDA autonome, disponible en tant que projet open-source sous licence MIT, améliore considérablement les performances des LLM sur du matériel grand public.

Open Source Optimization performance Speculative Decoding

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

ARTICLE↑ trendingReddit r/LocalLLaMA·12/04/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Des tests de décodage spéculatif utilisant Gemma 4 E2B comme brouillon pour Gemma 4 31B ont révélé une amélioration notable des performances. La vitesse moyenne a augmenté de 29%, atteignant 50% pour la génération de code, avec des configurations matérielles et logicielles spécifiques.

Gemma 4 31B llama.cpp benchmark AI performance

RESEARCH↑ trendingReddit r/MachineLearning·26/04/2026

Speculative Decoding Implementations: EAGLE-3, Medusa-1, PARD, Draft Models, N-gram and Suffix Decoding from scratch [P]

Un nouveau dépôt éducatif a été lancé pour implémenter de zéro diverses méthodes de décodage spéculatif, telles qu'EAGLE-3 et Medusa-1, afin de faciliter l'étude des différences entre les conceptions de proposeurs. Il inclut des chemins d'entraînement et d'inférence pour des modèles comme Qwen/Qwen2.5-7B-Instruct et vise à expliciter la distinction entre la qualité du proposeur et le coût du vérificateur, et pourquoi un taux d'acceptation élevé n'implique pas toujours un débit plus élevé.

software development machine learning AI optimization Speculative Decoding

RESEARCHarXiv CS.CL·il y a 7j

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Cet article propose SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) pour améliorer le Décodage Spéculatif Basé sur la Récupération (RSD) pour les LLM. SENSE s'attaque aux dépendances lexicales rigides du RSD en utilisant un alignement sémantique robuste et un module d'évaluation à porte souple pour valider l'équivalence sémantique.

LLMs NLP Inference Optimization Speculative Decoding

RESEARCHarXiv CS.LG·23/04/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Cet article évalue le décodage spéculatif avec EAGLE3 pour optimiser l'agent commercial de PayPal, utilisant des modèles Nemotron affinés. L'étude démontre des améliorations de performance significatives, notamment une augmentation de 22-49% du débit et une réduction de 18-33% de la latence sans coût matériel supplémentaire.

Performance benchmarking LLM optimization Inference acceleration large language models

RESEARCHarXiv CS.LG·23/04/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, un superréseau de 15 milliards de paramètres, a été publié, offrant quatre choix de mixeurs entraînés par couche de décodeur pour permettre plusieurs préréglages de vitesse/qualité à partir d'un seul point de contrôle. Cela permet des gains de débit de décodage de 2,9x à 10,7x avec une rétention de qualité de 96% à 77%, et facilite également le décodage spéculatif sans modèle de brouillon séparé.

neural network architecture Performance optimization attention mechanisms large language models

RESEARCHDEV.to AI·il y a 22j

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Ce contenu détaille une expérience de trois mois visant à optimiser les performances de décodage du modèle Qwen3.6-27B sur une carte GPU RTX 3090 Ti. Le projet a réussi à améliorer la vitesse de décodage de 43 à 39-49 jetons par seconde, en utilisant une nouvelle technique de décodage spéculatif (MTP) au sein de llama.cpp.

LLM optimization llama.cpp Qwen3.6-27B GPU performance

RESEARCHarXiv CS.CL·30/04/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV est une nouvelle méthode de décodage spéculatif qui unifie les stratégies multi-brouillons et la vérification de blocs gourmande pour accélérer l'inférence des modèles de langage. Elle formule l'étape de vérification comme un problème de transport optimal, améliorant l'efficacité théorique et les performances empiriques en atteignant la longueur d'acceptation optimale.

large language models Inference Optimization Speculative Decoding AI Research

RESEARCHarXiv CS.AI·07/05/2026

Parallel Prefix Verification for Speculative Generation

PARSE (PArallel pRefix Speculative Engine) est un nouveau cadre de génération spéculative qui accélère l'inférence des grands modèles linguistiques (LLM). Il y parvient en parallélisant la vérification des préfixes au niveau sémantique, surmontant les limitations existantes en évaluant la correction sur plusieurs préfixes en une seule passe.

inference AI acceleration parallelization Speculative Decoding

RESEARCHarXiv CS.CL·21/04/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Cette recherche évalue le décodage spéculatif inter-familles pour les LLM polonais sur Apple Silicon, en étendant le cadre MLX-LM avec la Génération Assistée Universelle (UAG) pour la compatibilité inter-tokeniseurs. Les expériences montrent que la traduction de jetons sensible au contexte améliore considérablement les taux d'acceptation du Bielik 11B sur des jeux de données en langue polonaise.

apple-silicon Natural Language Processing Inference Optimization Speculative Decoding

RESEARCHarXiv CS.CL·il y a 12j

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec propose un cadre pour l'évolution en temps réel des modèles de brouillon dans le décodage spéculatif pour les Grands Modèles de Langage, s'attaquant au goulot d'étranglement des grandes tailles de vocabulaire. Il utilise une adaptation dynamique du vocabulaire et des paramètres, employant un mécanisme conscient du contexte et une stratégie d'alignement en ligne légère pour améliorer les taux d'acceptation et minimiser les écarts de distribution.

Optimization machine learning large language models AI inference

RESEARCHTogether AI Blog·31/03/2026

Aurora

Aurora est un framework RL open source qui transforme le décodage spéculatif en un système auto-améliorable, apprenant de chaque requête. Il offre une amélioration de 1,25x par rapport aux spéculateurs statiques bien entraînés.

Open Source AI Framework reinforcement learning Performance Improvement

NEWSDEV.to AI·15/04/2026

AWS Speed Boosts, Agentic Limits, and Clinical AI Advances

AWS optimise l'inférence des LLM avec le décodage spéculatif et a lancé le SDK Spring AI pour Bedrock AgentCore. De nouvelles recherches explorent également les défaillances des systèmes agentiques, la quantification de l'incertitude des CNN et le rôle des LLM dans le raisonnement clinique.

Clinical AI AWS LLM inference Agentic AI

ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

Speculative decoding question, 665% speed increase

Une question concernant le décodage spéculatif met en évidence une augmentation de vitesse remarquable de 665%. Ce sujet indique une discussion technique sur l'optimisation des modèles d'IA.

deep learning AI performance model optimization speed improvement