← heapsort-ai

quantization

57 items

ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

Gemma 4 31B — 4bit is all you need

Ce contenu compare les performances des versions quantifiées 4 bits et 8 bits de Gemma 4 31B sur un MacBook Pro M5 Max, découvrant étonnamment que la version 4 bits a obtenu un score plus élevé (91,3% contre 88,4%). Il signale également un problème où Gemma 4 26B-A4B est entrée dans une boucle de régression, tronquant les réponses après avoir atteint la limite maximale de jetons de 16 384.

Gemma 4 31B — 4bit is all you need
67
ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

L'utilisateur optimise un modèle Transformer pour la taille et la vitesse d'inférence, ayant atteint un plateau après FP16 et ONNX, avec un pruning peu efficace. Il demande conseil sur des techniques avancées comme la factorisation de rang faible, la quantification agressive ou la distillation de connaissances pour des améliorations concrètes.

50
NEWS↑ trendingReddit r/MachineLearning·21/04/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Chaperone-Thinking-LQ-1.0, un modèle DeepSeek-R1-32B de 4 bits quantifié GPTQ et affiné avec QLoRA, a été mis en open source. Il atteint 84 % de précision sur MedQA, proche de GPT-4o, pour une taille d'environ 20 Go et est 1,6 fois plus rapide que le modèle de base.

48
RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un utilisateur a découvert et corrigé un problème significatif de dérive de tenseur dans les couches `ssm_conv1d` des modèles Qwen3.6-35B GGUF quantifiés, proposant la métrique de Wasserstein comme supérieure à Kullback Leibler pour détecter l'instabilité numérique. La correction, qui cible spécifiquement les couches de transition d'état récurrentes responsables de la mémoire à long contexte, est maintenant disponible dans un modèle partagé.

44
DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Ce contenu détaille l'implémentation de la prédiction multi-jetons (MTP) avec des GGUF quantifiés pour Qwen3-27B, en utilisant les quantifications UD XL d'Unsloth avec des couches MTP greffées en Q8_0, ce qui entraîne une augmentation de débit de 2,5x. L'auteur partage les fichiers GGUF greffés, la source de la couche MTP et un script de conversion, ainsi que des instructions de compilation pour une version personnalisée de llama.cpp intégrant le support du décodage spéculatif d'une PR non fusionnée.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·13/04/2026

Experiment: Olmo 3 7B Instruct Q1_0

L'auteur a tenté de quantifier OLMo-3 7B Instruct en un format 1-bit en utilisant la distillation consciente de la quantification, entraînant le modèle pendant 12 heures sur 4x B200 GPUs. Bien que le modèle résultant puisse produire de l'anglais basique, il est généralement inutilisable en raison de boucles de répétition et d'un manque de suivi de contexte, attribué à l'arrêt prématuré de l'entraînement et à un choix de jeu de données inadapté.

Experiment: Olmo 3 7B Instruct Q1_0
43
RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 26j

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Une étude exhaustive sur TurboQuant compare ses variantes (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) avec FP8 pour la quantification du cache KV. FP8 est recommandé par défaut, offrant une capacité 2x avec une perte de précision négligeable et de bonnes performances. Les variantes TurboQuant présentent des avantages limités ou une dégradation significative de la précision et des performances, 4bit-nc étant une option pour les scénarios contraints par la mémoire.

A First Comprehensive Study of TurboQuant: Accuracy and Performance
43
ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

Une enquête sur MiniMax-M2.7 GGUF a révélé que les NaNs de perplexité affectent 21-38% des GGUF sur Hugging Face. Le problème a été attribué au débordement dans llama.cpp, spécifiquement dans `blk.61.ffn_down_exps` pour les quantifications Q5_K et Q4_K, et l'équipe a corrigé les siens.

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks
42
RESEARCH↑ trendingReddit r/LocalLLaMA·07/05/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant est une nouvelle technique qui utilise la quantification par rotation par paires pour améliorer significativement l'efficacité de l'inférence des Grands Modèles Linguistiques (LLM). Cette méthode cible spécifiquement les LLM de raisonnement, permettant un déploiement plus économique et rapide en réduisant les exigences de calcul et de mémoire.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

L'auteur examine pourquoi une recette spécifique de quantification Qwen3.6 27B INT8 Autoround surpasse les autres, observant que le modèle "réfléchit" moins mais fournit de meilleurs résultats lors des benchmarks. Il a ensuite reproduit cette performance avec une nouvelle quantification GGUF, notant que les deux obtiennent constamment des réponses plus rapidement que l'UD Q8 K XL.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 18j

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Ce contenu aborde un défi dans llama.cpp concernant la quantification asymétrique du cache KV q8/q4, qui peut entraîner un traitement CPU sur CUDA. Une discussion GitHub souligne qu'une compilation avec une combinaison spécifique de quantification du cache KV permet des économies de mémoire substantielles avec une perte de précision minime de 1,3%.

42
RESEARCH↑ trendingReddit r/MachineLearning·11/04/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·14/04/2026

Updated Qwen3.5-9B Quantization Comparison

Ce contenu compare différentes quantifications GGUF du modèle Qwen3.5-9B, utilisant la Divergence KL (KLD) pour évaluer la fidélité par rapport à la base de référence BF16. Le but est de fournir aux utilisateurs une base de données pour choisir le fichier quantifié le plus fidèle, avec des scores KLD plus bas indiquant une perte d'information moindre.

Updated Qwen3.5-9B Quantization Comparison
42