quantization

57 items

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Ce contenu évalue les performances du modèle MoE quantifié Qwen 3.6 35B A3B Q4_K_M sur CPU, en utilisant des benchmarks comme HumanEval, HellaSwag et BFCL. Il a atteint 22 jetons/sec, montrant de solides performances en raisonnement de bon sens (74%) et des résultats solides pour un modèle MoE actif de 3B.

AI model evaluation Benchmarking quantization MoE

Qwen 3.6 35B A3B Q4_K_M quant evaluation

RESEARCH↑ trendingReddit r/LocalLLaMA·06/05/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

Ce contenu compare la qualité de différentes quantifications du modèle Qwen 3.6 27B à l'aide d'un test de jeu d'échecs personnalisé afin de trouver l'option optimale pour les configurations avec 16 Go de VRAM. Il évalue la capacité des modèles à suivre les états du plateau et à générer des images SVG précises.

VRAM Benchmarking quantization model quality

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 28j

I got a real transformer language model running locally on a stock Game Boy Color!

Un modèle de langage transformateur (TinyStories-260K) a été exécuté localement sur une Game Boy Color standard, utilisant des poids INT8 et des calculs en virgule fixe. Cette prouesse technique remarquable a impliqué une ROM personnalisée et une tokenisation sur l'appareil, malgré une performance extrêmement lente et une sortie illisible.

Hardware Acceleration Edge AI quantization AI inference

I got a real transformer language model running locally on a stock Game Boy Color!

ARTICLE↑ trendingReddit r/LocalLLaMA·24/04/2026

Takeaways & discussion about the DeepSeek V4 architecture

Cet article discute des nouveautés architecturales de DeepSeek V4, soulignant son système d'attention hybride (CSA + HCA) et les Manifold-Constrained Hyper-Connections. Il aborde également l'entraînement FP4 QAT à l'échelle de la frontière, le différenciant des modèles précédents.

DeepSeek deep learning attention mechanisms quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen3.6 GGUF Benchmarks

Ce contenu présente les benchmarks de performance KLD pour les quants GGUF Qwen3.6-35B-A3B d'Unsloth, soulignant leur efficacité par rapport à l'espace disque. Il clarifie également que les mises à jour fréquentes des GGUF sont généralement dues à des corrections de bugs externes ou à des améliorations officielles, et non à des erreurs internes d'Unsloth.

LLMs quantization Benchmarks

CASE↑ trendingReddit r/MachineLearning·27/04/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Un utilisateur a constaté que la quantification INT8 sur son modèle de deep learning offrait une meilleure précision d'inférence que FP16, ce qui était inattendu. Il recherche des explications pour la performance supérieure de l'INT8 par rapport au FP16.

inference ONNX deep learning quantization

NEWS↑ trendingReddit r/LocalLLaMA·27/04/2026

AMD Hipfire - a new inference engine optimized for AMD GPU's

Le contenu présente Hipfire, un nouveau moteur d'inférence optimisé pour toutes les GPU AMD, utilisant une méthode de quantification mq4 spéciale. Les benchmarks initiaux de Localmaxxing montrent des accélérations spectaculaires, bien que le créateur précise qu'il n'est pas officiellement lié à AMD.

Benchmarking GPU optimization AMD quantization

NEWS↑ trendingReddit r/LocalLLaMA·15/04/2026

What is the current status with Turbo Quant?

Ce contenu s'interroge sur le statut actuel de la technologie « Turbo Quant », faisant référence à son battage médiatique d'il y a environ deux semaines et aux requêtes de tirage (pull requests) dans llama.cpp. L'utilisateur cherche une mise à jour sur son développement et son adoption.

Turbo Quant llama.cpp quantization AI development

RESEARCHarXiv CS.LG·il y a 1j

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Les Modèles de Langage de Diffusion (dLLMs) sont confrontés à un "délai de stabilité" dû à l'engagement irréversible des tokens, un problème exacerbé par les erreurs de Quantification Post-Entraînement (PTQ). FAIR-Calib propose un cadre PTQ en deux étapes qui utilise un a priori de position et une calibration couche par couche pour protéger les états frontaliers fragiles, améliorant la quantification pour les dLLMs.

Diffusion Models post-training quantization quantization AI calibration

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Major drop in intelligence across most major models.

L'auteur signale une baisse majeure de l'intelligence de plusieurs modèles d'IA comme ChatGPT, Claude, Gemini et Grok, à partir de mi-avril 2026. Il a observé que les modèles ignoraient les instructions et donnaient des résultats superficiels, émettant l'hypothèse d'une réduction de la quantification ou d'une politique délibérée, et suggérant l'utilisation de GPUs louées ou d'IA locale.

quantization Local AI model degradation AI intelligence drop

ARTICLEDEV.to AI·19/04/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

Le contenu met en lumière l'optimisation de l'inférence comme la tendance critique façonnant l'infrastructure LLM d'ici 2026, soulignant son importance par rapport à la taille du modèle. Il explique que si la formation est un coût unique, l'inférence est une dépense continue qui impacte directement les marges et l'expérience utilisateur, rendant l'efficacité primordiale.

quantization AI infrastructure Inference Optimization Cost Efficiency

RESEARCHarXiv CS.LG·il y a 29j

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Cet article présente RateQuant, une méthode pour l'optimisation de la quantification du cache KV à précision mixte dans les grands modèles linguistiques afin de résoudre les goulots d'étranglement de la mémoire. Il s'attaque au problème de l'inadéquation du modèle de distorsion, où l'application du modèle de distorsion d'un quantificateur à un autre dégrade les performances par rapport à la quantification uniforme.

Memory Optimization quantization AI Research LLM

RESEARCHarXiv CS.LG·06/05/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ est un pipeline de compression en deux étapes pour le cache KV dans les têtes d'attention des transformateurs. Il utilise le rétrécissement optimal des valeurs singulières et la quantification scalaire par vecteur, basée sur la théorie des matrices aléatoires, pour obtenir une compression quasi sans perte et améliorer la reconstruction.

quantization Random matrix theory AI compression KV cache

RESEARCHarXiv CS.LG·il y a 5j

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant est un nouveau cadre pour le contrôle continu de la largeur de bit dans les Modèles de Langage de Grande Taille, résolvant les limitations de la quantification basée sur des entiers. Il utilise un mécanisme de "levée puis projection" pour un réglage quasi continu de la largeur de bit pour un déploiement optimal.

Model Compression neural networks LLMs deep learning

RESEARCHarXiv CS.LG·08/04/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

DOCDEV.to AI·il y a 11j

How to Deploy Qwen2.5 72B with vLLM + AWQ Quantization on a $24/Month DigitalOcean GPU Droplet: Multilingual Reasoning at 1/110th Claude Opus Cost

Ce guide explique comment déployer Qwen2.5 72B avec vLLM et quantification AWQ sur un Droplet GPU DigitalOcean pour seulement 24 $/mois. Il démontre une réduction de coût significative par rapport aux API d'IA commerciales comme Claude Opus, offrant un raisonnement multilingue de niveau entreprise à une fraction du prix.

deployment quantization Cost Optimization DigitalOcean

RESEARCHarXiv CS.CL·il y a 19j

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Cette recherche examine comment différents niveaux de quantification à faible bit affectent les performances de LLaMA-3.1 en analyse qualitative, notant que les modèles à faible bit produisent souvent des hallucinations. Elle propose une méthode de vérification de prompt multipasse sensible à la quantification pour améliorer la précision en réduisant systématiquement les hallucinations et en filtrant le contenu non fiable.

model performance Qualitative Analysis LLMs hallucinations

RESEARCHDEV.to AI·il y a 28j

Federated Learning With Quantized Global Model Updates

Ce contenu explore la technique d'apprentissage fédéré, en se concentrant spécifiquement sur la manière dont les mises à jour quantifiées du modèle global peuvent optimiser son efficacité. Il aborde probablement des méthodes pour réduire la surcharge de communication et les coûts de calcul dans les environnements d'apprentissage automatique distribués.

Model updates machine learning quantization federated learning

ARTICLEDEV.to AI·il y a 15j

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Cet article compare la quantification des LLM en 16, 8 et 4 bits, révélant que le 4 bits, bien que plus rapide, compromet significativement la qualité sur les tâches de raisonnement et de mathématiques. Le véritable compromis se situe entre la tâche et la précision requise, le 8 bits étant optimal pour les tâches exigeant de la précision, offrant une perte de qualité minimale avec seulement une légère réduction de vitesse. Le choix de la quantification doit être basé sur la tâche et les considérations matérielles, et non uniquement sur le matériel.

inference speed model performance quantization hardware

RESEARCHarXiv CS.LG·il y a 7j

BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization

BitsMoE propose un cadre d'allocation de bits guidé par l'énergie spectrale pour la quantification des grands modèles de langage Mixture-of-Experts (MoE). Il vise à réduire la consommation de mémoire en décomposant les couches MoE et en utilisant des facteurs spectraux spécifiques aux experts pour une quantification à précision mixte et fine.

MoE models deep learning AI optimization quantization