quantization

57 items

RESEARCHDEV.to AI·il y a 24j

Efficient 8-Bit Quantization of Transformer Neural Machine Language TranslationModel

Cet article aborde la quantification efficace sur 8 bits des modèles de traduction automatique Transformer. L'objectif est d'optimiser les performances et l'efficacité de ces modèles en réduisant la consommation de mémoire et la latence.

AI models efficiency NLP quantization

DOCDEV.to AI·il y a 26j

How to Deploy Qwen2.5 32B with vLLM + Quantization on a $12/Month DigitalOcean GPU Droplet: Production-Grade Inference at 1/100th Claude Cost

Ce contenu explique comment déployer le modèle de langage Qwen2.5 32B avec vLLM et la quantification sur un droplet GPU DigitalOcean à 12 $/mois. Il démontre une inférence de qualité production à un coût nettement inférieur à celui des API commerciales.

deployment quantization Cost Optimization vLLM

ARTICLEDEV.to AI·18/04/2026

Traditional Quantization vs 1.58-Bit Ternary Models: A Practical Comparison

L'article compare les méthodes de quantification traditionnelles (INT4/INT8) pour les LLM locaux avec l'approche émergente de quantification ternaire à 1.58 bits, telle que BitNet b1.58. Il souligne la simplicité des modèles ternaires, qui utilisent uniquement -1, 0 ou +1 pour les poids, les contrastant avec les techniques de quantification post-entraînement standard.

Model Compression LLMs AI optimization quantization

ARTICLEDEV.to AI·il y a 29j

When I started running models locally, I thought quantization meant squeezing more into RAM. Turns o

L'article déconseille l'utilisation par défaut de Q4_K_M pour l'inférence locale de LLM, soulignant que des performances optimales proviennent de tests de niveaux de quantification adaptés à des flux de travail spécifiques. Il suggère qu'une quantification agressive comme Q3_K_S peut réduire considérablement la latence avec une perte de qualité imperceptible pour de nombreuses tâches, bien que la longueur du contexte représente un compromis.

Optimization LLMs quantization hardware

RESEARCHarXiv CS.LG·24/04/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse est un nouveau système d'inférence conçu pour les plateformes uniquement CPU, permettant l'exécution de grands modèles linguistiques sans multiplications. Il utilise des poids ternaires ({-1, 0, +1}) pour remplacer les multiplications en virgule flottante par des additions et soustractions conditionnelles, réduisant considérablement les goulots d'étranglement de la bande passante mémoire et offrant une compression de poids jusqu'à 16x.

inference CPU optimization quantization performance

RESEARCHarXiv CS.LG·il y a 28j

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Cette recherche analyse trois schémas de quantification de cache KV (KV, KQV, QKQV) et leur impact sur la variance du produit interne, en particulier comment QJL sur K l'augmente, amplifié par softmax. Les résultats empiriques soulignent la performance supérieure de KQV avec un budget de n=4, une assymétrie K-V inconditionnelle où QKQV est systématiquement moins bon que KQV en divergence KL, et des croisements dépendants du budget pour la reconstruction géométrique de K.

machine learning quantization AI statistical inference

RESEARCHarXiv CS.LG·07/05/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Cette recherche présente MP-ISMoE, un cadre de Mixture-of-Experts Latérale Interactive en Précision Mixte, pour améliorer l'apprentissage par transfert économe en paramètres en atténuant la surcharge mémoire. Il utilise un schéma de Quantification Itérative Perturbée par Bruit Gaussien (GNP-IQ) pour la quantification des poids à faible nombre de bits, libérant de la mémoire pour améliorer la capacité d'apprentissage et les performances du réseau latéral.

model efficiency learning Transfer Learning quantization

RESEARCHarXiv CS.LG·07/05/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Cette recherche présente EdgeRazor, un cadre léger conçu pour déployer les grands modèles de langage sur des appareils à ressources limitées. Il utilise une distillation de quantification consciente à précision mixte pour convertir les modèles à pleine précision en formats à bits inférieurs, surmontant les limitations des méthodes de quantification précédentes.

LLMs deep learning quantization model optimization

RESEARCHarXiv CS.LG·il y a 20j

Theory-optimal Quantization Based on Flatness

Cette recherche modélise la relation entre l'erreur de quantification et les valeurs aberrantes dans les grands modèles de langage (LLM) et introduit une nouvelle métrique, Flatness, pour quantifier la distribution des valeurs aberrantes. Sur cette base, elle dérive une solution théorique optimale et propose la Quantification Diagonale Bidirectionnelle (BDQ) pour la quantification post-entraînement.

deep learning machine learning quantization AI

RESEARCHarXiv CS.LG·il y a 27j

QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization

QuIDE introduit une métrique unifiée, l'Indice d'Intelligence I, pour évaluer l'efficacité des réseaux de neurones quantifiés en combinant le compromis compression-précision-latence. Des expériences révèlent une quantification optimale dépendante de la tâche (4 ou 8 bits), fournissant un protocole d'évaluation reproductible et une fonction d'aptitude pour la recherche en précision mixte.

neural networks Optimization machine learning AI Efficiency

RESEARCHarXiv CS.LG·il y a 22j

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Cette étude examine l'impact de la quantification post-entraînement sur la qualité des Grands Modèles de Langage (LLMs), révélant que la compression peut entraîner l'émergence de biais. Une quantification à 3 bits a provoqué l'apparition de nouveaux comportements stéréotypés dans 6 à 21% des éléments précédemment impartiaux sur des modèles comme Qwen2.5-7B, Mistral-7B et Phi-3.5-mini. Ce phénomène suit un schéma clair de réponse-dose.

Model Compression LLMs quantization model quality

ARTICLEDEV.to AI·08/05/2026

The Mobile Architect: Bridging the AI Gap Without a PC

L'auteur partage son expérience de codage sur smartphone, réalisant que le développement de l'IA peut se faire n'importe où. Le modèle Gemma 4 E2B change la donne, permettant à l'IA de fonctionner efficacement sur les appareils mobiles avec une faible consommation de RAM, démocratisant l'accès pour les étudiants et les développeurs.

mobile development Edge AI Gemma 4 AI on Mobile

DOCDEV.to AI·il y a 14j

How to Deploy Llama 3.2 90B with vLLM + Quantization on a $20/Month DigitalOcean GPU Droplet: Enterprise Reasoning at 1/140th Claude Opus Cost

Ce contenu fournit un guide sur le déploiement du modèle Llama 3.2 90B avec vLLM et quantification sur un droplet GPU DigitalOcean pour seulement 20 $/mois. Cette configuration offre des capacités de raisonnement de niveau entreprise à un coût 25 fois inférieur à celui de Claude Opus, permettant des économies substantielles pour l'infrastructure d'IA.

AI deployment quantization Cost Optimization DigitalOcean

ARTICLEOpenAI Blog·il y a 29j

What Parameter Golf taught us about AI-assisted research

Parameter Golf a réuni plus de 1 000 participants et 2 000 soumissions pour explorer la recherche en apprentissage automatique assistée par l'IA. L'événement s'est concentré sur les agents de codage, la quantification et la conception de nouveaux modèles sous des contraintes strictes.

research machine learning quantization AI

NEWSML Mastery·30/04/2026

Effective KV Compression with TurboQuant

Google a récemment lancé TurboQuant, une nouvelle suite algorithmique et bibliothèque pour appliquer une quantification et une compression avancées aux grands modèles de langage (LLM) et aux moteurs de recherche vectorielle. Cet outil est un élément indispensable des systèmes RAG.

LLMs quantization vector search RAG systems

Effective KV Compression with TurboQuant

ARTICLEDEV.to AI·14/04/2026

Best Open-Source Models for OpenClaw — Run Locally, No API Costs

Cet article recommande les meilleurs modèles d'IA open-source pour une exécution locale sur OpenClaw en avril 2026, mettant en avant Qwen3.5:27b comme le meilleur polyvalent, DeepSeek-R1-Distill-32B pour le codage et Llama 4 Scout pour les tâches multimodales. Il détaille les exigences VRAM et les performances de référence pour chaque modèle.

open source models LLMs GPU local inference

NEWSDEV.to AI·14/04/2026

Autonomous Sovereign AI Nodes: v10082 Deployment Log

Ceci est un journal de déploiement pour les Nœuds d'IA Souverains Autonomes v10082 du projet FractalMesh Omega Titan. Il détaille la quantification complète en périphérie sur du matériel Termux, géré par Samuel James Hiotis.

deployment Edge AI Autonomous systems quantization