llama.cpp

33 items

DOC↑ trendingReddit r/LocalLLaMA·22/4/2026

Running Qwen3.6-35B-A3B Locally for Coding Agent: My Setup & Working Config

Este contenido detalla una configuración para ejecutar el modelo Qwen3.6-35B-A3B localmente en un MacBook Pro M2 Max. Describe la integración con el agente de codificación `pi` a través de `llama.cpp` y `llama-server`, incluyendo parámetros de configuración y la configuración de la línea de comandos.

Coding Agent llama.cpp Local AI macOS

ARTICLE↑ trendingReddit r/LocalLLaMA·11/4/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

La tarjeta Intel Arc Pro B70 32GB alcanzó ~12 tps para consultas únicas y 135 tps con 32 concurrencias en Qwen3.5-27B@Q4, siendo un 20% menos que la RTX PRO 4500. Adicionalmente, consumió un 50% más de energía en alta concurrencia, con el paralelismo de tensor degradando y el de pipeline mejorando el rendimiento.

Qwen3.5 llama.cpp GPU performance Intel Arc Pro B70

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Este contenido detalla la implementación de la Predicción Multitoken (MTP) con GGUF cuantificados para Qwen3-27B, utilizando cuantificaciones UD XL de Unsloth con capas MTP injertadas en Q8_0, lo que resulta en un aumento de rendimiento de 2,5x. El autor comparte archivos GGUF injertados, la fuente de la capa MTP y un script de conversión, junto con instrucciones de construcción para una versión personalizada de llama.cpp que incorpora soporte de decodificación especulativa de una PR no fusionada.

Multi-Token Prediction llama.cpp quantization large language models

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Este contenido detalla cómo lograr una inferencia 2.5 veces más rápida con Qwen 3.6 27B usando el soporte MTP en llama.cpp, alcanzando 28 tok/s en un M2 Max. Proporciona archivos GGUF convertidos para descargar, adecuados para codificación agéntica local con 262k de contexto en 48GB.

LLM optimization llama.cpp GGUF Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

why llama.cpp can’t combine speculative decode methods?

Un usuario investiga por qué los métodos de decodificación especulativa como MTP y N-gram no pueden combinarse simultáneamente en llama.cpp, señalando que N-gram ofrece mejoras significativas para la codificación. Busca entender si es una limitación fundamental o de implementación, descubriendo que otros ya han planteado la misma pregunta.

Optimization LLMs llama.cpp Qwen3.6

ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Este artículo detalla una nueva estrategia de caché de expertos dinámicos en llama.cpp para acelerar la generación de tokens en grandes modelos MoE como Qwen3.5-122B-A10B. El enfoque carga los expertos más utilizados en la VRAM, lo que resulta en una generación de tokens hasta un 26,8% más rápida en comparación con la descarga parcial basada en capas.

Token Generation llama.cpp VRAM Optimization MoE

NEWS↑ trendingReddit r/LocalLLaMA·7/5/2026

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

El contenido anuncia la adición de soporte para el modelo MiMo v2.5 en llama.cpp y describe su arquitectura. MiMo v2.5 es un modelo Sparse MoE con 310B de parámetros totales y 15B activados, que soporta modalidades de texto, imagen, video y audio con una impresionante longitud de contexto.

multimodal AI Model Architecture llama.cpp MoE

feat: Add Mimo v2.5 model support by AesSedai · Pull Request #22493 · ggml-org/llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·9/4/2026

Gemma 4 on Llama.cpp should be stable now

A integração de correções no Llama.cpp resolveu problemas conhecidos do Gemma 4, tornando-o estável para uso. O conteúdo oferece dicas de execução, como uso de `--chat-template-file` e otimização de cache, além de alertar contra o uso do CUDA 13.2.

Technical Tips Gemma 4 llama.cpp performance

ARTICLE↑ trendingReddit r/LocalLLaMA·12/4/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Las pruebas de decodificación especulativa utilizando Gemma 4 E2B como borrador para Gemma 4 31B mostraron una notable mejora en el rendimiento. La velocidad promedio aumentó un 29%, llegando al 50% en la generación de código, con configuraciones específicas de hardware y software.

Gemma 4 31B llama.cpp benchmark AI performance

ARTICLE↑ trendingReddit r/LocalLLaMA·18/4/2026

RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.

El contenido detalla cómo optimizar Qwen3.6-35B-A3B en hardware de consumo (RTX 5070 Ti, Ryzen 9800X3D), logrando 79 t/s con contexto de 128K. El hallazgo clave es el uso correcto de la bandera `--n-cpu-moe N` en llama.cpp, que supera significativamente a la común `--cpu-moe` al usar más VRAM de la GPU para los expertos MoE.

llama.cpp AI optimization MoE LLM performance

NEWS↑ trendingReddit r/LocalLLaMA·19/4/2026

llama.cpp speculative checkpointing was merged

La funcionalidad de "speculative checkpointing" se ha fusionado en llama.cpp, ofreciendo posibles mejoras de velocidad. Aunque algunos prompts, como para codificación con parámetros optimizados, pueden ver un aumento de velocidad del 0% al 50%, otros podrían no beneficiarse debido a una baja aceptación del borrador.

Open Source llama.cpp speculative-checkpointing AI inference

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 18d

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Este contenido aborda un desafío en llama.cpp sobre la cuantificación asimétrica del caché KV q8/q4, que puede llevar al procesamiento en CPU con CUDA. Una discusión en GitHub sugiere que compilar con una combinación específica de cuantificación de caché KV, incluso sin FA_ALL_QUANTS, ofrece un ahorro sustancial de memoria con solo una pérdida de precisión del 1,3%.

llama.cpp GPU optimization quantization KV cache

NEWS↑ trendingReddit r/LocalLLaMA·4/5/2026

Llama.cpp MTP support now in beta!

El soporte MTP para llama.cpp ya está en fase beta, con soporte inicial para Qwen3.5 MTP y potencial de fusión en breve. Se espera que esta mejora, junto con el soporte tensor-parallel, elimine las brechas de rendimiento entre llama.cpp y vLLM, especialmente en la velocidad de generación de tokens.

AI models Qwen3.5 MTP llama.cpp

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Get faster qwen 3.6 27b

El contenido detalla cómo lograr un rendimiento más rápido con el modelo Qwen 3.6 27B usando llama.cpp en una GPU 3090. Incluye pasos para aplicar un commit específico y comandos de configuración de `llama-server` para alcanzar 50 t/s con 100k de contexto.

llama.cpp AI optimization GPU performance GGUF

DOC↑ trendingReddit r/LocalLLaMA·15/4/2026

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

El autor comparte una optimización exitosa para ejecutar el modelo Qwen3.5-35B-A3B-UD-Q4_K_L en una RTX 4060 Ti 16GB utilizando llama.cpp, logrando 40-60 tokens/s con 64k de contexto. La publicación detalla la configuración `models.ini` y el comando de inicio del servidor para replicar este rendimiento.

Hardware Acceleration AI Model Optimization llama.cpp local inference

RESEARCH↑ trendingReddit r/LocalLLaMA·hace 19d

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

El autor logró 110 tok/s con 12GB de VRAM usando ik_llama.cpp en el modelo Qwen3.6 35B A3B, notando un gran aumento de velocidad. Este rendimiento superó al de llama.cpp regular después de la fusión de su PR MTP.

GPU VRAM LLM optimization llama.cpp Benchmarking

ARTICLE↑ trendingReddit r/LocalLLaMA·20/4/2026

Why doesn't any OSS tool treat llama.cpp as a first class citizen?

Este artículo investiga por qué las herramientas de código abierto no tratan a `llama.cpp` como una solución de primera clase. Analiza su integración y reconocimiento en el ecosistema de software de código abierto.

Open Source llama.cpp AI tools

DOC↑ trendingReddit r/LocalLLaMA·hace 27d

llama.cpp docker images to run MTP models

Este contenido describe la creación de imágenes Docker para `llama.cpp` con el fin de simplificar la ejecución de modelos MTP, tras numerosas mejoras y correcciones de errores. También señala que Unsloth ha lanzado nuevos modelos MTP para Qwen 3.6, lo que hace que las versiones anteriores queden obsoletas.

AI models Docker llama.cpp Qwen

NEWS↑ trendingReddit r/LocalLLaMA·9/4/2026

ggml: backend-agnostic tensor parallelism by JohannesGaessler · Pull Request #19378 · ggml-org/llama.cpp

A solicitação de pull request de JohannesGaessler sobre paralelismo de tensor agnóstico de backend para o projeto ggml-org/llama.cpp foi aprovada por Greganov. Este é um desenvolvimento importante para a eficiência e escalabilidade da inferência de modelos de IA.

llama.cpp tensor parallelism machine learning AI

NEWS↑ trendingReddit r/LocalLLaMA·12/4/2026

Audio processing landed in llama-server with Gemma-4

Llama.cpp (llama-server) ahora soporta procesamiento de audio con la funcionalidad Speech-to-Text (STT), integrando los modelos Gemma-4 E2A y E4A. Esta es una actualización significativa para la plataforma de inferencia de modelos de lenguaje.

Gemma 4 audio processing llama.cpp llama-server

Audio processing landed in llama-server with Gemma-4