← heapsort-ai

quantization

57 items

ARTICLEDEV.to AI·vor 29T

When I started running models locally, I thought quantization meant squeezing more into RAM. Turns o

Der Artikel rät von der Standardverwendung von Q4_K_M für die lokale LLM-Inferenz ab und betont, dass optimale Leistung durch das Testen von Quantisierungsstufen erzielt wird, die auf spezifische Workflows zugeschnitten sind. Er schlägt vor, dass aggressive Quantisierung wie Q3_K_S die Latenz erheblich reduzieren kann, mit kaum wahrnehmbarem Qualitätsverlust für viele Aufgaben, obwohl die Kontextlänge einen Kompromiss darstellt.

27
RESEARCHarXiv CS.LG·4/24/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse ist ein neues Inferenzsystem, das für reine CPU-Plattformen entwickelt wurde und die multiplikationsfreie Ausführung großer Sprachmodelle ermöglicht. Es verwendet ternäre Gewichte ({-1, 0, +1}), um Gleitkomma-Multiplikationen durch bedingte Additionen und Subtraktionen zu ersetzen, was Speicherbandbreiten-Engpässe erheblich reduziert und eine Gewichtskompression von bis zu 16x bietet.

27
RESEARCHarXiv CS.LG·vor 28T

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Diese Forschung analysiert drei KV-Cache-Quantisierungsschemata (KV, KQV, QKQV) und deren Einfluss auf die Varianz des inneren Produkts, insbesondere wie QJL auf K diese aufbläht, verstärkt durch Softmax. Empirische Ergebnisse heben die überlegene Leistung von KQV bei einem Budget von n=4 hervor, eine bedingungslose K-V-Asymmetrie, bei der QKQV in der KL-Divergenz durchweg schlechter ist als KQV, und budgetabhängige Überschneidungen für die geometrische K-Rekonstruktion.

27
RESEARCHarXiv CS.LG·5/7/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Diese Forschung stellt MP-ISMoE vor, ein Mixed-Precision Interactive Side Mixture-of-Experts-Framework, um das parameter-effiziente Transferlernen durch die Reduzierung des Speicheraufwands zu verbessern. Es verwendet ein Schema zur Gaußschen Rausch-gestörten iterativen Quantisierung (GNP-IQ) für die Quantisierung von Gewichten mit geringerer Bittiefe, wodurch Speicher freigegeben wird, um die Lernkapazität und Leistung des Seitennetzwerks zu verbessern.

27
RESEARCHarXiv CS.LG·5/7/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Diese Forschung stellt EdgeRazor vor, ein leichtgewichtiges Framework zur Bereitstellung großer Sprachmodelle auf ressourcenbeschränkten Geräten. Es nutzt gemischt-präzise quantisierungsbewusste Destillation, um Modelle voller Präzision in Formate mit geringerer Bitrate umzuwandeln und so die Einschränkungen früherer Quantisierungsmethoden zu überwinden.

27
RESEARCHarXiv CS.LG·vor 20T

Theory-optimal Quantization Based on Flatness

Diese Forschung modelliert die Beziehung zwischen Quantisierungsfehler und Ausreißern in großen Sprachmodellen (LLMs) und führt eine neue Metrik, Flatness, zur Quantifizierung der Ausreißerverteilung ein. Basierend darauf wird eine theoretisch optimale Lösung abgeleitet und die bidirektionale diagonale Quantisierung (BDQ) für die Post-Training-Quantisierung vorgeschlagen.

27
RESEARCHarXiv CS.LG·vor 27T

QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization

QuIDE schlägt eine einheitliche Metrik, den Intelligenzindex I, zur Bewertung der Effizienz quantisierter neuronaler Netze vor, indem es den Kompressions-Genauigkeits-Latenz-Kompromiss zusammenfasst. Experimente zeigen eine aufgabenabhängige optimale Quantisierung (4- oder 8-Bit), die ein reproduzierbares Bewertungsprotokoll und eine Fitnessfunktion für die gemischte Präzisionssuche bietet.

27
RESEARCHarXiv CS.LG·vor 22T

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Diese Studie untersucht die Auswirkungen der Post-Training-Quantisierung auf die Qualität großer Sprachmodelle (LLMs) und zeigt, dass Komprimierung zur Entstehung von Voreingenommenheit führen kann. Eine 3-Bit-Quantisierung führte dazu, dass 6-21% der zuvor unvoreingenommenen Elemente neue stereotype Verhaltensweisen entwickelten, was ein klares Dosis-Wirkungs-Muster zeigte.

27
DOCDEV.to AI·vor 14T

How to Deploy Llama 3.2 90B with vLLM + Quantization on a $20/Month DigitalOcean GPU Droplet: Enterprise Reasoning at 1/140th Claude Opus Cost

Dieser Inhalt bietet eine Anleitung zur Bereitstellung des Llama 3.2 90B-Modells mit vLLM und Quantisierung auf einem DigitalOcean GPU-Droplet für nur 20 $/Monat. Diese Einrichtung bietet Reasoning-Fähigkeiten auf Unternehmensniveau zu Kosten, die 25-mal niedriger sind als bei Claude Opus, was erhebliche Einsparungen bei der KI-Infrastruktur ermöglicht.

27