GGUF

16 items

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un utilisateur a découvert et corrigé un problème significatif de dérive de tenseur dans les couches `ssm_conv1d` des modèles Qwen3.6-35B GGUF quantifiés, proposant la métrique de Wasserstein comme supérieure à Kullback Leibler pour détecter l'instabilité numérique. La correction, qui cible spécifiquement les couches de transition d'état récurrentes responsables de la mémoire à long contexte, est maintenant disponible dans un modèle partagé.

LLMs quantization GGUF model optimization

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Ce contenu détaille comment obtenir une inférence 2,5 fois plus rapide avec Qwen 3.6 27B en utilisant le support MTP dans llama.cpp, atteignant 28 tok/s sur un M2 Max. Il fournit des fichiers GGUF convertis à télécharger, adaptés au codage agentique local avec 262k de contexte sur 48GB.

LLM optimization llama.cpp GGUF Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

Une enquête sur MiniMax-M2.7 GGUF a révélé que les NaNs de perplexité affectent 21-38% des GGUF sur Hugging Face. Le problème a été attribué au débordement dans llama.cpp, spécifiquement dans `blk.61.ffn_down_exps` pour les quantifications Q5_K et Q4_K, et l'équipe a corrigé les siens.

Perplexity NaNs quantization GGUF

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Get faster qwen 3.6 27b

Le contenu détaille comment obtenir des performances plus rapides avec le modèle Qwen 3.6 27B en utilisant llama.cpp sur un GPU 3090. Il comprend les étapes pour appliquer un commit spécifique et les commandes de configuration du `llama-server` afin d'atteindre 50 t/s avec un contexte de 100k.

llama.cpp AI optimization GPU performance GGUF

RESEARCH↑ trendingReddit r/LocalLLaMA·14/04/2026

Updated Qwen3.5-9B Quantization Comparison

Ce contenu compare différentes quantifications GGUF du modèle Qwen3.5-9B, utilisant la Divergence KL (KLD) pour évaluer la fidélité par rapport à la base de référence BF16. Le but est de fournir aux utilisateurs une base de données pour choisir le fichier quantifié le plus fidèle, avec des scores KLD plus bas indiquant une perte d'information moindre.

Qwen3.5-9B KLD quantization GGUF

Updated Qwen3.5-9B Quantization Comparison

ARTICLE↑ trendingReddit r/LocalLLaMA·12/04/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

L'auteur compare les modèles GGUF MiniMax-M2.7 et Qwen3.5-122B-A10B pour le déchargement complet local sur un système avec 96 Go de VRAM. Pour ses besoins, le Qwen3.5-122B est préféré, même si MiniMax est plus quantifié, soulignant les compromis de performance pour l'inférence LLM locale.

VRAM GGUF MiniMax Qwen

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

ARTICLE↑ trendingReddit r/LocalLLaMA·08/04/2026

Qwen3.5-35B-A3B-Uncensored-FernflowerAI-GGUF

O autor encontrou e corrigiu um bug de treinamento no modelo Qwen3.5-35B-A3B, disponibilizando uma versão fixa, um prompt de sistema aprimorado, um template de chat com suporte a tool calling e configurações recomendadas para LM Studio. A correção aborda problemas de perda de contexto e repetição que ocorriam em conversas longas com a versão anterior do modelo.

Model Fix Qwen3.5 GGUF Uncensored

NEWS↑ trendingReddit r/LocalLLaMA·12/04/2026

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

Le modèle Qwen3 prend désormais en charge l'entrée audio via ses versions `qwen3-omni-moe` (multimodale avec entrée vision et audio) et `qwen3-asr` (reconnaissance automatique de la parole). Des modèles GGUF pour Qwen3-Omni (variantes 30B) et Qwen3-ASR (1.7B et 0.6B) sont disponibles sur Hugging Face pour la communauté.

multimodal AI audio GGUF Qwen3

mtmd: qwen3 audio support (qwen3-omni and qwen3-asr)

ARTICLE↑ trendingReddit r/LocalLLaMA·06/05/2026

Uploaded Unsloth Qwen3.6-35B-A3B UD XL models with MTP grafted, here are the results

Ce message rapporte les résultats de la version 35B A3B des modèles Qwen3.6-35B-A3B UD XL avec MTP greffé, désormais disponibles sur HuggingFace. Les tests initiaux ont montré des gains de vitesse limités (6% pour Q4, 2,5% pour Q8) sur certaines configurations, bien que d'autres utilisateurs aient rapporté des améliorations plus significatives (jusqu'à 50%) selon leur matériel.

AI models LLM optimization GGUF performance testing

ARTICLE↑ trendingReddit r/LocalLLaMA·26/04/2026

Switched from Qwen3.6 35b-a3b to Qwen3.6 27b mid coding and it's noticeably better!

Un utilisateur est passé de Qwen3.6 35b-a3b à Qwen3.6 27b (IQ3_M) pendant le codage et a trouvé ce dernier nettement meilleur, résolvant même un bug difficile. Il se demande si les modèles denses gèrent mieux la compression que les modèles MoE, compte tenu de l'expérience positive avec une quantification plus agressive.

AI models local LLM Performance Comparison GGUF

Switched from Qwen3.6 35b-a3b to Qwen3.6 27b mid coding and it's noticeably better!

ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

Gemma 4 - MLX doesn't seem better than GGUF

Un utilisateur compare les performances du modèle Gemma 4-26b-a4b en versions MLX et GGUF sur un M1 Max avec 32GB de RAM. Les tests avec un prompt de 3k tokens indiquent que GGUF est légèrement plus rapide à la fois pour le traitement du prompt et les tokens par seconde.

model performance apple-silicon Gemma MLX

DOC↑ trendingReddit r/LocalLLaMA·04/05/2026

it's time to update your Gemma 4 GGUFs

Il est temps de mettre à jour vos modèles Gemma 4 GGUF, car le modèle de chat a été corrigé il y a quelques jours. Plusieurs liens pour télécharger les modèles mis à jour sont disponibles.

AI models LLMs update Gemma

NEWS↑ trendingReddit r/LocalLLaMA·08/04/2026

It looks like we’ll need to download the new Gemma 4 GGUFs

Este conteúdo anuncia a atualização dos modelos Gemma 4 GGUF da Unsloth, incorporando várias melhorias e correções do projeto llama.cpp. As atualizações abordam aspectos técnicos como cache KV, suporte CUDA, manuseio de vocabulário e parsing específico para Gemma 4.

unsloth Gemma 4 modelos de IA llama.cpp

NEWS↑ trendingReddit r/LocalLLaMA·22/04/2026

unsloth Qwen3.6-27B-GGUF

Les fichiers pour le modèle unsloth Qwen3.6-27B au format GGUF sont enfin disponibles. Cette mise à jour marque la publication des fichiers tant attendus pour le modèle d'IA spécifié.

unsloth GGUF model release LLM

DOCDEV.to AI·10/05/2026

How to Deploy Llama 3.2 11B with GGUF Quantization on a $5/Month DigitalOcean Droplet: Production Inference Without GPU Costs

Cet article explique comment déployer le modèle Llama 3.2 11B avec la quantification GGUF sur un Droplet DigitalOcean à faible coût pour l'inférence en production. Il met en évidence des économies considérables par rapport aux API d'IA payantes, tout en maintenant de bonnes performances sur les CPU.

learning Llama 3 AI deployment Cost Optimization

NEWS↑ trendingReddit r/LocalLLaMA·08/04/2026

kepler-452b. GGUF when?

O título questiona a disponibilidade do formato GGUF para 'kepler-452b', sugerindo uma discussão sobre a versão GGUF de um modelo de IA. A entrada é um post simples de comunidade com links para mais detalhes.

GGUF model deployment LLM