← heapsort-ai

Speculative Decoding

18 items

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Este contenido detalla la implementación de la Predicción Multitoken (MTP) con GGUF cuantificados para Qwen3-27B, utilizando cuantificaciones UD XL de Unsloth con capas MTP injertadas en Q8_0, lo que resulta en un aumento de rendimiento de 2,5x. El autor comparte archivos GGUF injertados, la fuente de la capa MTP y un script de conversión, junto con instrucciones de construcción para una versión personalizada de llama.cpp que incorpora soporte de decodificación especulativa de una PR no fusionada.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

why llama.cpp can’t combine speculative decode methods?

Un usuario investiga por qué los métodos de decodificación especulativa como MTP y N-gram no pueden combinarse simultáneamente en llama.cpp, señalando que N-gram ofrece mejoras significativas para la codificación. Busca entender si es una limitación fundamental o de implementación, descubriendo que otros ya han planteado la misma pregunta.

43
RESEARCH↑ trendingReddit r/MachineLearning·26/4/2026

Speculative Decoding Implementations: EAGLE-3, Medusa-1, PARD, Draft Models, N-gram and Suffix Decoding from scratch [P]

Se ha lanzado un nuevo repositorio de implementación educativa para la decodificación especulativa, que implementa desde cero varios métodos como EAGLE-3 y Medusa-1 para facilitar el estudio de las diferencias en el diseño de los propositores. Incluye rutas de entrenamiento e inferencia para modelos como Qwen/Qwen2.5-7B-Instruct y busca explicitar la distinción entre la calidad del proponente y el costo del verificador, y por qué una alta tasa de aceptación no siempre implica mayor rendimiento.

42
RESEARCHarXiv CS.CL·hace 7d

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Este artículo propone SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) para mejorar la Decodificación Especulativa Basada en Recuperación (RSD) en LLMs. SENSE aborda las rígidas dependencias léxicas de RSD, utilizando alineación semántica y evaluación de puerta suave para validar la equivalencia semántica.

29
RESEARCHarXiv CS.LG·23/4/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Este estudio evalúa la decodificación especulativa con EAGLE3 para optimizar el Agente de Comercio de PayPal, impulsado por modelos Nemotron ajustados. El análisis revela mejoras de rendimiento notables, como un aumento del 22-49% en el rendimiento y una reducción del 18-33% en la latencia sin costos de hardware adicionales.

28
RESEARCHarXiv CS.LG·23/4/2026

Super Apriel: One Checkpoint, Many Speeds

Se ha lanzado Super Apriel, una superred de 15 mil millones de parámetros donde cada capa del decodificador ofrece cuatro opciones de mezclador entrenadas, permitiendo múltiples configuraciones de velocidad/calidad desde un único punto de control. Esto posibilita ganancias de rendimiento de decodificación de 2.9x a 10.7x con una retención de calidad del 96% al 77%, y también la decodificación especulativa sin un modelo de borrador separado.

28
RESEARCHarXiv CS.CL·30/4/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV es un nuevo método de decodificación especulativa que unifica estrategias de multi-borrador y verificación de bloques voraz para acelerar la inferencia de modelos de lenguaje. Formula el paso de verificación como un problema de transporte óptimo, mejorando tanto la eficiencia teórica como el rendimiento empírico al alcanzar la longitud de aceptación óptima.

27
RESEARCHarXiv CS.CL·21/4/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Esta investigación evalúa la decodificación especulativa entre familias para LLMs polacos en Apple Silicon, extendiendo el framework MLX-LM con Generación Asistida Universal (UAG) para compatibilidad entre tokenizadores. Los experimentos demuestran que la traducción de tokens consciente del contexto mejora significativamente las tasas de aceptación del Bielik 11B en conjuntos de datos en polaco.

27
RESEARCHarXiv CS.CL·hace 12d

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec introduce un marco para la evolución en tiempo real de modelos preliminares en la decodificación especulativa para Grandes Modelos de Lenguaje, abordando el cuello de botella de los vocabularios grandes. Utiliza adaptación dinámica de vocabulario y parámetros, empleando un mecanismo sensible al contexto y una estrategia ligera de alineación en línea para mejorar las tasas de aceptación y minimizar las brechas distribucionales.

27