GGUF

16 items

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un usuario descubrió y solucionó un problema significativo de deriva de tensor en las capas `ssm_conv1d` de los modelos Qwen3.6-35B GGUF cuantificados, proponiendo la métrica de Wasserstein como superior a Kullback Leibler para detectar inestabilidad numérica. La solución, que se dirige específicamente a las capas de transición de estado recurrente responsables de la memoria de contexto largo, ya está disponible en un modelo compartido.

LLMs quantization GGUF model optimization

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Este contenido detalla cómo lograr una inferencia 2.5 veces más rápida con Qwen 3.6 27B usando el soporte MTP en llama.cpp, alcanzando 28 tok/s en un M2 Max. Proporciona archivos GGUF convertidos para descargar, adecuados para codificación agéntica local con 262k de contexto en 48GB.

LLM optimization llama.cpp GGUF Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

Una investigación sobre MiniMax-M2.7 GGUF encontró que los NaNs en la perplejidad afectan al 21-38% de los GGUF en Hugging Face. El problema se atribuyó a desbordamientos en llama.cpp, específicamente en `blk.61.ffn_down_exps` para cuantificaciones Q5_K y Q4_K, y el equipo corrigió los suyos.

Perplexity NaNs quantization GGUF

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Get faster qwen 3.6 27b

El contenido detalla cómo lograr un rendimiento más rápido con el modelo Qwen 3.6 27B usando llama.cpp en una GPU 3090. Incluye pasos para aplicar un commit específico y comandos de configuración de `llama-server` para alcanzar 50 t/s con 100k de contexto.

llama.cpp AI optimization GPU performance GGUF

RESEARCH↑ trendingReddit r/LocalLLaMA·14/4/2026

Updated Qwen3.5-9B Quantization Comparison

Este contenido compara diferentes cuantificaciones GGUF del modelo Qwen3.5-9B, utilizando la Divergencia KL (KLD) para evaluar la fidelidad respecto a la línea base BF16. El objetivo es proporcionar a los usuarios una base de datos para elegir el archivo cuantificado más fiel, con puntuaciones KLD más bajas que indican una menor pérdida de información.

Qwen3.5-9B KLD quantization GGUF

Updated Qwen3.5-9B Quantization Comparison

ARTICLE↑ trendingReddit r/LocalLLaMA·12/4/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

El autor compara los modelos GGUF MiniMax-M2.7 y Qwen3.5-122B-A10B para descarga completa local en un equipo con 96GB de VRAM. Para sus propósitos, prefiere Qwen3.5-122B, a pesar de que MiniMax está más cuantificado, destacando las compensaciones en el rendimiento de la inferencia local de LLMs.

VRAM GGUF MiniMax Qwen

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

ARTICLE↑ trendingReddit r/LocalLLaMA·8/4/2026

Qwen3.5-35B-A3B-Uncensored-FernflowerAI-GGUF

O autor encontrou e corrigiu um bug de treinamento no modelo Qwen3.5-35B-A3B, disponibilizando uma versão fixa, um prompt de sistema aprimorado, um template de chat com suporte a tool calling e configurações recomendadas para LM Studio. A correção aborda problemas de perda de contexto e repetição que ocorriam em conversas longas com a versão anterior do modelo.

Model Fix Qwen3.5 GGUF Uncensored

NEWS↑ trendingReddit r/LocalLLaMA·12/4/2026

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

El modelo Qwen3 ahora es compatible con la entrada de audio a través de sus versiones `qwen3-omni-moe` (multimodal con entrada de visión y audio) y `qwen3-asr` (reconocimiento automático de voz). Los modelos GGUF para Qwen3-Omni (variantes de 30B) y Qwen3-ASR (1.7B y 0.6B) están disponibles en Hugging Face para uso de la comunidad.

multimodal AI audio GGUF Qwen3

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

ARTICLE↑ trendingReddit r/LocalLLaMA·6/5/2026

Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the results

Esta publicación informa los resultados de la versión 35B A3B de los modelos Qwen3.6-35B-A3B UD XL con MTP injertado, ahora disponibles en HuggingFace. Las pruebas iniciales mostraron ganancias de velocidad limitadas (6% para Q4, 2.5% para Q8) en algunas configuraciones, aunque otros usuarios reportaron mejoras más significativas (hasta el 50%) dependiendo de su hardware.

AI models LLM optimization GGUF performance testing

ARTICLE↑ trendingReddit r/LocalLLaMA·26/4/2026

Switched from Qwen3.6 35b-a3b to Qwen3.6 27b mid coding and it's noticeably better!

Un usuario que programaba con Qwen3.6 35b-a3b cambió a Qwen3.6 27b (IQ3_M) y notó una mejora significativa, incluso resolviendo un error difícil. Se pregunta si los modelos densos manejan mejor la compresión que los modelos MoE, dada la experiencia positiva con una cuantificación más agresiva.

AI models local LLM Performance Comparison GGUF

Switched from Qwen3.6 35b-a3b to Qwen3.6 27b mid coding and it's noticeably better!

ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

Gemma 4 - MLX doesn't seem better than GGUF

Un usuario compara el rendimiento del modelo Gemma 4-26b-a4b en versiones MLX y GGUF en un M1 Max con 32GB de RAM. Las pruebas con un prompt de 3k tokens indican que GGUF es ligeramente más rápido tanto en el procesamiento del prompt como en los tokens por segundo.

model performance apple-silicon Gemma MLX

DOC↑ trendingReddit r/LocalLLaMA·4/5/2026

it's time to update your Gemma 4 GGUFs

Es hora de actualizar tus modelos Gemma 4 GGUF, ya que la plantilla de chat fue corregida hace unos días. Se proporcionan varios enlaces para descargar los modelos actualizados.

AI models LLMs update Gemma

NEWS↑ trendingReddit r/LocalLLaMA·8/4/2026

It looks like we’ll need to download the new Gemma 4 GGUFs

Este conteúdo anuncia a atualização dos modelos Gemma 4 GGUF da Unsloth, incorporando várias melhorias e correções do projeto llama.cpp. As atualizações abordam aspectos técnicos como cache KV, suporte CUDA, manuseio de vocabulário e parsing específico para Gemma 4.

unsloth Gemma 4 modelos de IA llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·22/4/2026

unsloth Qwen3.6-27B-GGUF

Los archivos para el modelo unsloth Qwen3.6-27B en formato GGUF ya están disponibles. Esta actualización marca el lanzamiento de los archivos esperados para el modelo de IA especificado.

unsloth GGUF model release LLM

DOCDEV.to AI·10/5/2026

How to Deploy Llama 3.2 11B with GGUF Quantization on a $5/Month DigitalOcean Droplet: Production Inference Without GPU Costs

Este artículo detalla cómo implementar el modelo Llama 3.2 11B con cuantificación GGUF en un Droplet de DigitalOcean de bajo costo para la inferencia en producción. Destaca ahorros significativos en comparación con las API de IA pagas, manteniendo un buen rendimiento en CPUs.

learning Llama 3 AI deployment Cost Optimization

NEWS↑ trendingReddit r/LocalLLaMA·8/4/2026

kepler-452b. GGUF when?

O título questiona a disponibilidade do formato GGUF para 'kepler-452b', sugerindo uma discussão sobre a versão GGUF de um modelo de IA. A entrada é um post simples de comunidade com links para mais detalhes.

GGUF model deployment LLM