← heapsort-ai

quantization

57 items

ARTICLEDEV.to AI·18/04/2026

Traditional Quantization vs 1.58-Bit Ternary Models: A Practical Comparison

L'article compare les méthodes de quantification traditionnelles (INT4/INT8) pour les LLM locaux avec l'approche émergente de quantification ternaire à 1.58 bits, telle que BitNet b1.58. Il souligne la simplicité des modèles ternaires, qui utilisent uniquement -1, 0 ou +1 pour les poids, les contrastant avec les techniques de quantification post-entraînement standard.

27
ARTICLEDEV.to AI·il y a 29j

When I started running models locally, I thought quantization meant squeezing more into RAM. Turns o

L'article déconseille l'utilisation par défaut de Q4_K_M pour l'inférence locale de LLM, soulignant que des performances optimales proviennent de tests de niveaux de quantification adaptés à des flux de travail spécifiques. Il suggère qu'une quantification agressive comme Q3_K_S peut réduire considérablement la latence avec une perte de qualité imperceptible pour de nombreuses tâches, bien que la longueur du contexte représente un compromis.

27
RESEARCHarXiv CS.LG·24/04/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse est un nouveau système d'inférence conçu pour les plateformes uniquement CPU, permettant l'exécution de grands modèles linguistiques sans multiplications. Il utilise des poids ternaires ({-1, 0, +1}) pour remplacer les multiplications en virgule flottante par des additions et soustractions conditionnelles, réduisant considérablement les goulots d'étranglement de la bande passante mémoire et offrant une compression de poids jusqu'à 16x.

27
RESEARCHarXiv CS.LG·il y a 28j

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Cette recherche analyse trois schémas de quantification de cache KV (KV, KQV, QKQV) et leur impact sur la variance du produit interne, en particulier comment QJL sur K l'augmente, amplifié par softmax. Les résultats empiriques soulignent la performance supérieure de KQV avec un budget de n=4, une assymétrie K-V inconditionnelle où QKQV est systématiquement moins bon que KQV en divergence KL, et des croisements dépendants du budget pour la reconstruction géométrique de K.

27
RESEARCHarXiv CS.LG·07/05/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Cette recherche présente MP-ISMoE, un cadre de Mixture-of-Experts Latérale Interactive en Précision Mixte, pour améliorer l'apprentissage par transfert économe en paramètres en atténuant la surcharge mémoire. Il utilise un schéma de Quantification Itérative Perturbée par Bruit Gaussien (GNP-IQ) pour la quantification des poids à faible nombre de bits, libérant de la mémoire pour améliorer la capacité d'apprentissage et les performances du réseau latéral.

27
RESEARCHarXiv CS.LG·07/05/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Cette recherche présente EdgeRazor, un cadre léger conçu pour déployer les grands modèles de langage sur des appareils à ressources limitées. Il utilise une distillation de quantification consciente à précision mixte pour convertir les modèles à pleine précision en formats à bits inférieurs, surmontant les limitations des méthodes de quantification précédentes.

27
RESEARCHarXiv CS.LG·il y a 20j

Theory-optimal Quantization Based on Flatness

Cette recherche modélise la relation entre l'erreur de quantification et les valeurs aberrantes dans les grands modèles de langage (LLM) et introduit une nouvelle métrique, Flatness, pour quantifier la distribution des valeurs aberrantes. Sur cette base, elle dérive une solution théorique optimale et propose la Quantification Diagonale Bidirectionnelle (BDQ) pour la quantification post-entraînement.

27
RESEARCHarXiv CS.LG·il y a 27j

QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization

QuIDE introduit une métrique unifiée, l'Indice d'Intelligence I, pour évaluer l'efficacité des réseaux de neurones quantifiés en combinant le compromis compression-précision-latence. Des expériences révèlent une quantification optimale dépendante de la tâche (4 ou 8 bits), fournissant un protocole d'évaluation reproductible et une fonction d'aptitude pour la recherche en précision mixte.

27
RESEARCHarXiv CS.LG·il y a 22j

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Cette étude examine l'impact de la quantification post-entraînement sur la qualité des Grands Modèles de Langage (LLMs), révélant que la compression peut entraîner l'émergence de biais. Une quantification à 3 bits a provoqué l'apparition de nouveaux comportements stéréotypés dans 6 à 21% des éléments précédemment impartiaux sur des modèles comme Qwen2.5-7B, Mistral-7B et Phi-3.5-mini. Ce phénomène suit un schéma clair de réponse-dose.

27
DOCDEV.to AI·il y a 14j

How to Deploy Llama 3.2 90B with vLLM + Quantization on a $20/Month DigitalOcean GPU Droplet: Enterprise Reasoning at 1/140th Claude Opus Cost

Ce contenu fournit un guide sur le déploiement du modèle Llama 3.2 90B avec vLLM et quantification sur un droplet GPU DigitalOcean pour seulement 20 $/mois. Cette configuration offre des capacités de raisonnement de niveau entreprise à un coût 25 fois inférieur à celui de Claude Opus, permettant des économies substantielles pour l'infrastructure d'IA.

27