quantization

57 items

ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

Gemma 4 31B — 4bit is all you need

Ce contenu compare les performances des versions quantifiées 4 bits et 8 bits de Gemma 4 31B sur un MacBook Pro M5 Max, découvrant étonnamment que la version 4 bits a obtenu un score plus élevé (91,3% contre 88,4%). Il signale également un problème où Gemma 4 26B-A4B est entrée dans une boucle de régression, tronquant les réponses après avoir atteint la limite maximale de jetons de 16 384.

4bit 8bit Gemma quantization

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

L'utilisateur optimise un modèle Transformer pour la taille et la vitesse d'inférence, ayant atteint un plateau après FP16 et ONNX, avec un pruning peu efficace. Il demande conseil sur des techniques avancées comme la factorisation de rang faible, la quantification agressive ou la distillation de connaissances pour des améliorations concrètes.

Pruning inference Transformer quantization

NEWS↑ trendingReddit r/MachineLearning·21/04/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Chaperone-Thinking-LQ-1.0, un modèle DeepSeek-R1-32B de 4 bits quantifié GPTQ et affiné avec QLoRA, a été mis en open source. Il atteint 84 % de précision sur MedQA, proche de GPT-4o, pour une taille d'environ 20 Go et est 1,6 fois plus rapide que le modèle de base.

Open Source Benchmarking quantization Fine-tuning

NEWS↑ trendingReddit r/MachineLearning·22/04/2026

INT3 compression+fused metal kernels [R]

Un chercheur et fondateur solo a développé la compression de modèles INT3 et un cache KV de 2 bits avec des noyaux Metal personnalisés pour Mac (série M). Qwen 7B est disponible en prévisualisation, et d'autres optimisations et le support GPU sont prévus.

Hardware Acceleration LLMs quantization model optimization

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

ArcFace embeddings quantized to 16-bit pgvector HALFVEC ? [D]

Le texte aborde l'optimisation des embeddings ArcFace de 512 dimensions dans PostgreSQL, qui dépassent les limites TOAST et augmentent les E/S. Il est proposé de les quantifier en 16 bits (HALFVEC) pour réduire de moitié le stockage et les E/S, en s'interrogeant sur l'impact sur la précision.

quantization pgvector embeddings PostgreSQL

RESEARCH↑ trendingReddit r/LocalLLaMA·22/04/2026

Personal Eval follow-up: Gemma4 26B MoE (Q8) vs Qwen3.5 27B Dense vs Gemma4 31B Dense Compared

Ce suivi compare les modèles Gemma4 26B MoE (Q8), Qwen3.5 27B Dense et Gemma4 31B Dense, incluant les résultats précédents de Qwen 3.6 35B et Gemma 4 26B (Q4). L'analyse évalue leurs performances, soulignant l'impact de la quantification 8 bits et l'efficacité de différentes architectures de modèle.

Benchmarking Gemma model comparison quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un utilisateur a découvert et corrigé un problème significatif de dérive de tenseur dans les couches `ssm_conv1d` des modèles Qwen3.6-35B GGUF quantifiés, proposant la métrique de Wasserstein comme supérieure à Kullback Leibler pour détecter l'instabilité numérique. La correction, qui cible spécifiquement les couches de transition d'état récurrentes responsables de la mémoire à long contexte, est maintenant disponible dans un modèle partagé.

LLMs quantization GGUF model optimization

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Ce contenu détaille l'implémentation de la prédiction multi-jetons (MTP) avec des GGUF quantifiés pour Qwen3-27B, en utilisant les quantifications UD XL d'Unsloth avec des couches MTP greffées en Q8_0, ce qui entraîne une augmentation de débit de 2,5x. L'auteur partage les fichiers GGUF greffés, la source de la couche MTP et un script de conversion, ainsi que des instructions de compilation pour une version personnalisée de llama.cpp intégrant le support du décodage spéculatif d'une PR non fusionnée.

Multi-Token Prediction llama.cpp quantization large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·13/04/2026

Experiment: Olmo 3 7B Instruct Q1_0

L'auteur a tenté de quantifier OLMo-3 7B Instruct en un format 1-bit en utilisant la distillation consciente de la quantification, entraînant le modèle pendant 12 heures sur 4x B200 GPUs. Bien que le modèle résultant puisse produire de l'anglais basique, il est généralement inutilisable en raison de boucles de répétition et d'un manque de suivi de contexte, attribué à l'arrêt prématuré de l'entraînement et à un choix de jeu de données inadapté.

OLMo-3 distillation quantization 1-bit model

RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 26j

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Une étude exhaustive sur TurboQuant compare ses variantes (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) avec FP8 pour la quantification du cache KV. FP8 est recommandé par défaut, offrant une capacité 2x avec une perte de précision négligeable et de bonnes performances. Les variantes TurboQuant présentent des avantages limités ou une dégradation significative de la précision et des performances, 4bit-nc étant une option pour les scénarios contraints par la mémoire.

AI models TurboQuant Performance optimization FP8

A First Comprehensive Study of TurboQuant: Accuracy and Performance

DOC↑ trendingReddit r/MachineLearning·22/04/2026

Need Info on quality benchmarks to run on DeepSeek V3.2 different quant levels [D]

Un utilisateur demande quels benchmarks de qualité exécuter pour mesurer la dégradation des performances lors de l'application de la quantification en temps réel au grand modèle linguistique DeepSeek V3.2. L'objectif est de comparer la perte de qualité par rapport à la version non quantifiée.

Benchmarking quantization model optimization AI evaluation

NEWS↑ trendingReddit r/LocalLLaMA·10/04/2026

Update on Gemma 4 having MTP: Reverse engineering effort

O autor extraiu os pesos do modelo Gemma 4 em arquivos TFLite e agora busca ajuda da comunidade, especialmente de especialistas em C++, para convertê-los em um módulo Pytorch. O processo envolve desafios como a desquantização INT8 e a exploração de ferramentas como o Google AI Edge Model explorer.

Gemma 4 machine learning quantization model conversion

ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

Une enquête sur MiniMax-M2.7 GGUF a révélé que les NaNs de perplexité affectent 21-38% des GGUF sur Hugging Face. Le problème a été attribué au débordement dans llama.cpp, spécifiquement dans `blk.61.ffn_down_exps` pour les quantifications Q5_K et Q4_K, et l'équipe a corrigé les siens.

Perplexity NaNs quantization GGUF

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

RESEARCH↑ trendingReddit r/LocalLLaMA·07/05/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant est une nouvelle technique qui utilise la quantification par rotation par paires pour améliorer significativement l'efficacité de l'inférence des Grands Modèles Linguistiques (LLM). Cette méthode cible spécifiquement les LLM de raisonnement, permettant un déploiement plus économique et rapide en réduisant les exigences de calcul et de mémoire.

Optimization LLMs efficiency quantization

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

L'auteur examine pourquoi une recette spécifique de quantification Qwen3.6 27B INT8 Autoround surpasse les autres, observant que le modèle "réfléchit" moins mais fournit de meilleurs résultats lors des benchmarks. Il a ensuite reproduit cette performance avec une nouvelle quantification GGUF, notant que les deux obtiennent constamment des réponses plus rapidement que l'UD Q8 K XL.

AI models Qwen3.6 Performance optimization quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·21/04/2026

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

Ce contenu présente PrismML et un nouveau concept d'IA appelé Ternary Bonsai, qui prétend atteindre une intelligence supérieure avec une efficacité remarquable de 1.58 bits. Il aborde probablement les avancées en matière de compression de modèles d'IA ou de performance optimisée.

AI models model efficiency machine learning quantization

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 18j

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Ce contenu aborde un défi dans llama.cpp concernant la quantification asymétrique du cache KV q8/q4, qui peut entraîner un traitement CPU sur CUDA. Une discussion GitHub souligne qu'une compilation avec une combinaison spécifique de quantification du cache KV permet des économies de mémoire substantielles avec une perte de précision minime de 1,3%.

llama.cpp GPU optimization quantization KV cache

RESEARCH↑ trendingReddit r/MachineLearning·11/04/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

HNSW Memory Optimization quantization Vector Indexing

NEWS↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen3.6-35B-A3B Uncensored Aggressive is out with K_P quants!

La variante "Aggressive" du Qwen3.6-35B-A3B a été lancée, offrant une version non censurée du modèle original, sans refus et sans perte de capacités. Cette version inclut diverses quantifications K_P et un support vision.

uncensored AI quantization Qwen model release

RESEARCH↑ trendingReddit r/LocalLLaMA·14/04/2026

Updated Qwen3.5-9B Quantization Comparison

Ce contenu compare différentes quantifications GGUF du modèle Qwen3.5-9B, utilisant la Divergence KL (KLD) pour évaluer la fidélité par rapport à la base de référence BF16. Le but est de fournir aux utilisateurs une base de données pour choisir le fichier quantifié le plus fidèle, avec des scores KLD plus bas indiquant une perte d'information moindre.

Qwen3.5-9B KLD quantization GGUF

Updated Qwen3.5-9B Quantization Comparison