← heapsort-ai

quantization

57 items

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Ce contenu évalue les performances du modèle MoE quantifié Qwen 3.6 35B A3B Q4_K_M sur CPU, en utilisant des benchmarks comme HumanEval, HellaSwag et BFCL. Il a atteint 22 jetons/sec, montrant de solides performances en raisonnement de bon sens (74%) et des résultats solides pour un modèle MoE actif de 3B.

Qwen 3.6 35B A3B Q4_K_M quant evaluation
42
RESEARCH↑ trendingReddit r/LocalLLaMA·06/05/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

Ce contenu compare la qualité de différentes quantifications du modèle Qwen 3.6 27B à l'aide d'un test de jeu d'échecs personnalisé afin de trouver l'option optimale pour les configurations avec 16 Go de VRAM. Il évalue la capacité des modèles à suivre les états du plateau et à générer des images SVG précises.

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)
42
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 28j

I got a real transformer language model running locally on a stock Game Boy Color!

Un modèle de langage transformateur (TinyStories-260K) a été exécuté localement sur une Game Boy Color standard, utilisant des poids INT8 et des calculs en virgule fixe. Cette prouesse technique remarquable a impliqué une ROM personnalisée et une tokenisation sur l'appareil, malgré une performance extrêmement lente et une sortie illisible.

I got a real transformer language model running locally on a stock Game Boy Color!
42
RESEARCH↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen3.6 GGUF Benchmarks

Ce contenu présente les benchmarks de performance KLD pour les quants GGUF Qwen3.6-35B-A3B d'Unsloth, soulignant leur efficacité par rapport à l'espace disque. Il clarifie également que les mises à jour fréquentes des GGUF sont généralement dues à des corrections de bugs externes ou à des améliorations officielles, et non à des erreurs internes d'Unsloth.

Qwen3.6 GGUF Benchmarks
41
RESEARCHarXiv CS.LG·il y a 1j

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Les Modèles de Langage de Diffusion (dLLMs) sont confrontés à un "délai de stabilité" dû à l'engagement irréversible des tokens, un problème exacerbé par les erreurs de Quantification Post-Entraînement (PTQ). FAIR-Calib propose un cadre PTQ en deux étapes qui utilise un a priori de position et une calibration couche par couche pour protéger les états frontaliers fragiles, améliorant la quantification pour les dLLMs.

36
ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Major drop in intelligence across most major models.

L'auteur signale une baisse majeure de l'intelligence de plusieurs modèles d'IA comme ChatGPT, Claude, Gemini et Grok, à partir de mi-avril 2026. Il a observé que les modèles ignoraient les instructions et donnaient des résultats superficiels, émettant l'hypothèse d'une réduction de la quantification ou d'une politique délibérée, et suggérant l'utilisation de GPUs louées ou d'IA locale.

35
ARTICLEDEV.to AI·19/04/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

Le contenu met en lumière l'optimisation de l'inférence comme la tendance critique façonnant l'infrastructure LLM d'ici 2026, soulignant son importance par rapport à la taille du modèle. Il explique que si la formation est un coût unique, l'inférence est une dépense continue qui impacte directement les marges et l'expérience utilisateur, rendant l'efficacité primordiale.

30
RESEARCHarXiv CS.LG·il y a 29j

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Cet article présente RateQuant, une méthode pour l'optimisation de la quantification du cache KV à précision mixte dans les grands modèles linguistiques afin de résoudre les goulots d'étranglement de la mémoire. Il s'attaque au problème de l'inadéquation du modèle de distorsion, où l'application du modèle de distorsion d'un quantificateur à un autre dégrade les performances par rapport à la quantification uniforme.

29
RESEARCHarXiv CS.LG·06/05/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ est un pipeline de compression en deux étapes pour le cache KV dans les têtes d'attention des transformateurs. Il utilise le rétrécissement optimal des valeurs singulières et la quantification scalaire par vecteur, basée sur la théorie des matrices aléatoires, pour obtenir une compression quasi sans perte et améliorer la reconstruction.

29
RESEARCHarXiv CS.LG·08/04/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

28
DOCDEV.to AI·il y a 11j

How to Deploy Qwen2.5 72B with vLLM + AWQ Quantization on a $24/Month DigitalOcean GPU Droplet: Multilingual Reasoning at 1/110th Claude Opus Cost

Ce guide explique comment déployer Qwen2.5 72B avec vLLM et quantification AWQ sur un Droplet GPU DigitalOcean pour seulement 24 $/mois. Il démontre une réduction de coût significative par rapport aux API d'IA commerciales comme Claude Opus, offrant un raisonnement multilingue de niveau entreprise à une fraction du prix.

28
RESEARCHarXiv CS.CL·il y a 19j

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Cette recherche examine comment différents niveaux de quantification à faible bit affectent les performances de LLaMA-3.1 en analyse qualitative, notant que les modèles à faible bit produisent souvent des hallucinations. Elle propose une méthode de vérification de prompt multipasse sensible à la quantification pour améliorer la précision en réduisant systématiquement les hallucinations et en filtrant le contenu non fiable.

28
RESEARCHDEV.to AI·il y a 28j

Federated Learning With Quantized Global Model Updates

Ce contenu explore la technique d'apprentissage fédéré, en se concentrant spécifiquement sur la manière dont les mises à jour quantifiées du modèle global peuvent optimiser son efficacité. Il aborde probablement des méthodes pour réduire la surcharge de communication et les coûts de calcul dans les environnements d'apprentissage automatique distribués.

27
ARTICLEDEV.to AI·il y a 15j

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Cet article compare la quantification des LLM en 16, 8 et 4 bits, révélant que le 4 bits, bien que plus rapide, compromet significativement la qualité sur les tâches de raisonnement et de mathématiques. Le véritable compromis se situe entre la tâche et la précision requise, le 8 bits étant optimal pour les tâches exigeant de la précision, offrant une perte de qualité minimale avec seulement une légère réduction de vitesse. Le choix de la quantification doit être basé sur la tâche et les considérations matérielles, et non uniquement sur le matériel.

27
RESEARCHarXiv CS.LG·il y a 7j

BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization

BitsMoE propose un cadre d'allocation de bits guidé par l'énergie spectrale pour la quantification des grands modèles de langage Mixture-of-Experts (MoE). Il vise à réduire la consommation de mémoire en décomposant les couches MoE et en utilisant des facteurs spectraux spécifiques aux experts pour une quantification à précision mixte et fine.

27