← heapsort-ai

GGUF

16 items

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un usuario descubrió y solucionó un problema significativo de deriva de tensor en las capas `ssm_conv1d` de los modelos Qwen3.6-35B GGUF cuantificados, proponiendo la métrica de Wasserstein como superior a Kullback Leibler para detectar inestabilidad numérica. La solución, que se dirige específicamente a las capas de transición de estado recurrente responsables de la memoria de contexto largo, ya está disponible en un modelo compartido.

44
DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Este contenido detalla cómo lograr una inferencia 2.5 veces más rápida con Qwen 3.6 27B usando el soporte MTP en llama.cpp, alcanzando 28 tok/s en un M2 Max. Proporciona archivos GGUF convertidos para descargar, adecuados para codificación agéntica local con 262k de contexto en 48GB.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

Una investigación sobre MiniMax-M2.7 GGUF encontró que los NaNs en la perplejidad afectan al 21-38% de los GGUF en Hugging Face. El problema se atribuyó a desbordamientos en llama.cpp, específicamente en `blk.61.ffn_down_exps` para cuantificaciones Q5_K y Q4_K, y el equipo corrigió los suyos.

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks
42
DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Get faster qwen 3.6 27b

El contenido detalla cómo lograr un rendimiento más rápido con el modelo Qwen 3.6 27B usando llama.cpp en una GPU 3090. Incluye pasos para aplicar un commit específico y comandos de configuración de `llama-server` para alcanzar 50 t/s con 100k de contexto.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·14/4/2026

Updated Qwen3.5-9B Quantization Comparison

Este contenido compara diferentes cuantificaciones GGUF del modelo Qwen3.5-9B, utilizando la Divergencia KL (KLD) para evaluar la fidelidad respecto a la línea base BF16. El objetivo es proporcionar a los usuarios una base de datos para elegir el archivo cuantificado más fiel, con puntuaciones KLD más bajas que indican una menor pérdida de información.

Updated Qwen3.5-9B Quantization Comparison
42
ARTICLE↑ trendingReddit r/LocalLLaMA·12/4/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

El autor compara los modelos GGUF MiniMax-M2.7 y Qwen3.5-122B-A10B para descarga completa local en un equipo con 96GB de VRAM. Para sus propósitos, prefiere Qwen3.5-122B, a pesar de que MiniMax está más cuantificado, destacando las compensaciones en el rendimiento de la inferencia local de LLMs.

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!
42
ARTICLE↑ trendingReddit r/LocalLLaMA·8/4/2026

Qwen3.5-35B-A3B-Uncensored-FernflowerAI-GGUF

O autor encontrou e corrigiu um bug de treinamento no modelo Qwen3.5-35B-A3B, disponibilizando uma versão fixa, um prompt de sistema aprimorado, um template de chat com suporte a tool calling e configurações recomendadas para LM Studio. A correção aborda problemas de perda de contexto e repetição que ocorriam em conversas longas com a versão anterior do modelo.

42
NEWS↑ trendingReddit r/LocalLLaMA·12/4/2026

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

El modelo Qwen3 ahora es compatible con la entrada de audio a través de sus versiones `qwen3-omni-moe` (multimodal con entrada de visión y audio) y `qwen3-asr` (reconocimiento automático de voz). Los modelos GGUF para Qwen3-Omni (variantes de 30B) y Qwen3-ASR (1.7B y 0.6B) están disponibles en Hugging Face para uso de la comunidad.

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)
42
ARTICLE↑ trendingReddit r/LocalLLaMA·6/5/2026

Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the results

Esta publicación informa los resultados de la versión 35B A3B de los modelos Qwen3.6-35B-A3B UD XL con MTP injertado, ahora disponibles en HuggingFace. Las pruebas iniciales mostraron ganancias de velocidad limitadas (6% para Q4, 2.5% para Q8) en algunas configuraciones, aunque otros usuarios reportaron mejoras más significativas (hasta el 50%) dependiendo de su hardware.

41
NEWS↑ trendingReddit r/LocalLLaMA·22/4/2026

unsloth Qwen3.6-27B-GGUF

Los archivos para el modelo unsloth Qwen3.6-27B en formato GGUF ya están disponibles. Esta actualización marca el lanzamiento de los archivos esperados para el modelo de IA especificado.

unsloth Qwen3.6-27B-GGUF
33
NEWS↑ trendingReddit r/LocalLLaMA·8/4/2026

kepler-452b. GGUF when?

O título questiona a disponibilidade do formato GGUF para 'kepler-452b', sugerindo uma discussão sobre a versão GGUF de um modelo de IA. A entrada é um post simples de comunidade com links para mais detalhes.

18