Speculative Decoding

18 items

RESEARCH↑ trendingReddit r/LocalLLaMA·11/4/2026

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Este contenido describe una implementación nativa de DFlash en MLX para Apple Silicon, que acelera significativamente la generación de tokens en modelos Qwen. La técnica de decodificación especulativa logra mejoras de velocidad de hasta 3.3x, manteniendo la calidad de salida idéntica.

apple-silicon MLX Qwen LLM performance

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Este contenido detalla la implementación de la Predicción Multitoken (MTP) con GGUF cuantificados para Qwen3-27B, utilizando cuantificaciones UD XL de Unsloth con capas MTP injertadas en Q8_0, lo que resulta en un aumento de rendimiento de 2,5x. El autor comparte archivos GGUF injertados, la fuente de la capa MTP y un script de conversión, junto con instrucciones de construcción para una versión personalizada de llama.cpp que incorpora soporte de decodificación especulativa de una PR no fusionada.

Multi-Token Prediction llama.cpp quantization large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

El contenido describe un experimento que demuestra ganancias significativas de velocidad (hasta 68.35 tokens/s) utilizando decodificación especulativa con el modelo Qwen-3.6-27B a través de llamacpp. El autor muestra la capacidad de la IA para generar y depurar código de manera eficiente.

Benchmarking AI performance Speculative Decoding LLM

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

why llama.cpp can’t combine speculative decode methods?

Un usuario investiga por qué los métodos de decodificación especulativa como MTP y N-gram no pueden combinarse simultáneamente en llama.cpp, señalando que N-gram ofrece mejoras significativas para la codificación. Busca entender si es una limitación fundamental o de implementación, descubriendo que otros ya han planteado la misma pregunta.

Optimization LLMs llama.cpp Qwen3.6

NEWS↑ trendingReddit r/LocalLLaMA·27/4/2026

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Luce DFlash presenta un puerto GGUF de decodificación especulativa DFlash para Qwen3.6-27B, logrando casi el doble de rendimiento en una única RTX 3090. Este stack C++/CUDA independiente, disponible como proyecto de código abierto con licencia MIT, mejora significativamente el rendimiento de los LLM en hardware de consumo.

Open Source Optimization performance Speculative Decoding

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

ARTICLE↑ trendingReddit r/LocalLLaMA·12/4/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Las pruebas de decodificación especulativa utilizando Gemma 4 E2B como borrador para Gemma 4 31B mostraron una notable mejora en el rendimiento. La velocidad promedio aumentó un 29%, llegando al 50% en la generación de código, con configuraciones específicas de hardware y software.

Gemma 4 31B llama.cpp benchmark AI performance

RESEARCH↑ trendingReddit r/MachineLearning·26/4/2026

Speculative Decoding Implementations: EAGLE-3, Medusa-1, PARD, Draft Models, N-gram and Suffix Decoding from scratch [P]

Se ha lanzado un nuevo repositorio de implementación educativa para la decodificación especulativa, que implementa desde cero varios métodos como EAGLE-3 y Medusa-1 para facilitar el estudio de las diferencias en el diseño de los propositores. Incluye rutas de entrenamiento e inferencia para modelos como Qwen/Qwen2.5-7B-Instruct y busca explicitar la distinción entre la calidad del proponente y el costo del verificador, y por qué una alta tasa de aceptación no siempre implica mayor rendimiento.

Software Development machine learning AI optimization Speculative Decoding

RESEARCHarXiv CS.CL·hace 7d

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Este artículo propone SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) para mejorar la Decodificación Especulativa Basada en Recuperación (RSD) en LLMs. SENSE aborda las rígidas dependencias léxicas de RSD, utilizando alineación semántica y evaluación de puerta suave para validar la equivalencia semántica.

LLMs NLP Inference Optimization Speculative Decoding

RESEARCHarXiv CS.LG·23/4/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Este estudio evalúa la decodificación especulativa con EAGLE3 para optimizar el Agente de Comercio de PayPal, impulsado por modelos Nemotron ajustados. El análisis revela mejoras de rendimiento notables, como un aumento del 22-49% en el rendimiento y una reducción del 18-33% en la latencia sin costos de hardware adicionales.

Performance benchmarking LLM optimization Inference acceleration large language models

RESEARCHarXiv CS.LG·23/4/2026

Super Apriel: One Checkpoint, Many Speeds

Se ha lanzado Super Apriel, una superred de 15 mil millones de parámetros donde cada capa del decodificador ofrece cuatro opciones de mezclador entrenadas, permitiendo múltiples configuraciones de velocidad/calidad desde un único punto de control. Esto posibilita ganancias de rendimiento de decodificación de 2.9x a 10.7x con una retención de calidad del 96% al 77%, y también la decodificación especulativa sin un modelo de borrador separado.

neural network architecture Performance optimization attention mechanisms large language models

RESEARCHDEV.to AI·hace 22d

Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B

Este contenido describe un experimento de tres meses para optimizar el rendimiento de decodificación del modelo Qwen3.6-27B en una GPU RTX 3090 Ti. El proyecto logró mejorar la velocidad de decodificación de 43 a 39-49 tokens por segundo, utilizando una nueva técnica de decodificación especulativa (MTP) en llama.cpp.

LLM optimization llama.cpp Qwen3.6-27B GPU performance

RESEARCHarXiv CS.CL·30/4/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV es un nuevo método de decodificación especulativa que unifica estrategias de multi-borrador y verificación de bloques voraz para acelerar la inferencia de modelos de lenguaje. Formula el paso de verificación como un problema de transporte óptimo, mejorando tanto la eficiencia teórica como el rendimiento empírico al alcanzar la longitud de aceptación óptima.

large language models Inference Optimization Speculative Decoding AI Research

RESEARCHarXiv CS.AI·7/5/2026

Parallel Prefix Verification for Speculative Generation

PARSE (PArallel pRefix Speculative Engine) es un nuevo marco de generación especulativa que acelera la inferencia de modelos de lenguaje grandes (LLM). Lo logra paralelizando la verificación de prefijos a nivel semántico, superando las limitaciones existentes al evaluar la corrección en múltiples prefijos en una sola pasada.

inference AI acceleration parallelization Speculative Decoding

RESEARCHarXiv CS.CL·21/4/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Esta investigación evalúa la decodificación especulativa entre familias para LLMs polacos en Apple Silicon, extendiendo el framework MLX-LM con Generación Asistida Universal (UAG) para compatibilidad entre tokenizadores. Los experimentos demuestran que la traducción de tokens consciente del contexto mejora significativamente las tasas de aceptación del Bielik 11B en conjuntos de datos en polaco.

apple-silicon natural language processing Inference Optimization Speculative Decoding

RESEARCHarXiv CS.CL·hace 12d

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec introduce un marco para la evolución en tiempo real de modelos preliminares en la decodificación especulativa para Grandes Modelos de Lenguaje, abordando el cuello de botella de los vocabularios grandes. Utiliza adaptación dinámica de vocabulario y parámetros, empleando un mecanismo sensible al contexto y una estrategia ligera de alineación en línea para mejorar las tasas de aceptación y minimizar las brechas distribucionales.

Optimization machine learning large language models AI inference

RESEARCHTogether AI Blog·31/3/2026

Aurora

Aurora es un framework de RL de código abierto que mejora la decodificación especulativa, convirtiéndola en un sistema auto-mejorable. Aprende de cada solicitud, ofreciendo un rendimiento 1.25x superior a los especuladores estáticos.

Open Source AI Framework reinforcement learning Performance Improvement

NEWSDEV.to AI·15/4/2026

AWS Speed Boosts, Agentic Limits, and Clinical AI Advances

AWS está optimizando la inferencia de LLMs con decodificación especulativa y lanzó el SDK Spring AI para Bedrock AgentCore. Además, nuevas investigaciones cubren fallos en sistemas agénticos, cuantificación de incertidumbre en CNNs y el papel de los LLMs en el razonamiento clínico.

Clinical AI AWS LLM inference Agentic AI

ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

Speculative decoding question, 665% speed increase

Una pregunta sobre la decodificación especulativa destaca un notable aumento de velocidad del 665%. Este tema sugiere una discusión técnica sobre la optimización de modelos de IA.

deep learning AI performance model optimization speed improvement