← heapsort-ai

llama.cpp

33 items

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Este contenido detalla la implementación de la Predicción Multitoken (MTP) con GGUF cuantificados para Qwen3-27B, utilizando cuantificaciones UD XL de Unsloth con capas MTP injertadas en Q8_0, lo que resulta en un aumento de rendimiento de 2,5x. El autor comparte archivos GGUF injertados, la fuente de la capa MTP y un script de conversión, junto con instrucciones de construcción para una versión personalizada de llama.cpp que incorpora soporte de decodificación especulativa de una PR no fusionada.

43
DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Este contenido detalla cómo lograr una inferencia 2.5 veces más rápida con Qwen 3.6 27B usando el soporte MTP en llama.cpp, alcanzando 28 tok/s en un M2 Max. Proporciona archivos GGUF convertidos para descargar, adecuados para codificación agéntica local con 262k de contexto en 48GB.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

why llama.cpp can’t combine speculative decode methods?

Un usuario investiga por qué los métodos de decodificación especulativa como MTP y N-gram no pueden combinarse simultáneamente en llama.cpp, señalando que N-gram ofrece mejoras significativas para la codificación. Busca entender si es una limitación fundamental o de implementación, descubriendo que otros ya han planteado la misma pregunta.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Este artículo detalla una nueva estrategia de caché de expertos dinámicos en llama.cpp para acelerar la generación de tokens en grandes modelos MoE como Qwen3.5-122B-A10B. El enfoque carga los expertos más utilizados en la VRAM, lo que resulta en una generación de tokens hasta un 26,8% más rápida en comparación con la descarga parcial basada en capas.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·18/4/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

El contenido detalla cómo optimizar Qwen3.6-35B-A3B en hardware de consumo (RTX 5070 Ti, Ryzen 9800X3D), logrando 79 t/s con contexto de 128K. El hallazgo clave es el uso correcto de la bandera `--n-cpu-moe N` en llama.cpp, que supera significativamente a la común `--cpu-moe` al usar más VRAM de la GPU para los expertos MoE.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·hace 18d

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Este contenido aborda un desafío en llama.cpp sobre la cuantificación asimétrica del caché KV q8/q4, que puede llevar al procesamiento en CPU con CUDA. Una discusión en GitHub sugiere que compilar con una combinación específica de cuantificación de caché KV, incluso sin FA_ALL_QUANTS, ofrece un ahorro sustancial de memoria con solo una pérdida de precisión del 1,3%.

42
NEWS↑ trendingReddit r/LocalLLaMA·4/5/2026

Llama.cpp MTP support now in beta!

El soporte MTP para llama.cpp ya está en fase beta, con soporte inicial para Qwen3.5 MTP y potencial de fusión en breve. Se espera que esta mejora, junto con el soporte tensor-parallel, elimine las brechas de rendimiento entre llama.cpp y vLLM, especialmente en la velocidad de generación de tokens.

Llama.cpp MTP support now in beta!
42
DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Get faster qwen 3.6 27b

El contenido detalla cómo lograr un rendimiento más rápido con el modelo Qwen 3.6 27B usando llama.cpp en una GPU 3090. Incluye pasos para aplicar un commit específico y comandos de configuración de `llama-server` para alcanzar 50 t/s con 100k de contexto.

42
DOC↑ trendingReddit r/LocalLLaMA·hace 27d

llama.cpp docker images to run MTP models

Este contenido describe la creación de imágenes Docker para `llama.cpp` con el fin de simplificar la ejecución de modelos MTP, tras numerosas mejoras y correcciones de errores. También señala que Unsloth ha lanzado nuevos modelos MTP para Qwen 3.6, lo que hace que las versiones anteriores queden obsoletas.

41