quantization

57 items

RESEARCHDEV.to AI·vor 24T

Efficient 8-Bit Quantization of Transformer Neural Machine Language TranslationModel

Dieser Artikel behandelt die effiziente 8-Bit-Quantisierung von Transformer-Modellen für die neuronale maschinelle Sprachübersetzung. Ziel ist es, die Leistung und Effizienz dieser Modelle durch Reduzierung des Speicherverbrauchs und der Latenz zu optimieren.

AI models efficiency NLP quantization

DOCDEV.to AI·vor 26T

How to Deploy Qwen2.5 32B with vLLM + Quantization on a $12/Month DigitalOcean GPU Droplet: Production-Grade Inference at 1/100th Claude Cost

Dieser Inhalt beschreibt, wie das Sprachmodell Qwen2.5 32B mit vLLM und Quantisierung auf einem 12 $/Monat teuren DigitalOcean GPU-Droplet bereitgestellt wird. Er demonstriert produktionsreife Inferenz zu deutlich geringeren Kosten als kommerzielle APIs.

deployment quantization Cost Optimization vLLM

ARTICLEDEV.to AI·4/18/2026

Traditional Quantization vs 1.58-Bit Ternary Models: A Practical Comparison

Der Artikel vergleicht traditionelle Quantisierungsmethoden (wie INT4/INT8) für lokale LLMs mit dem aufkommenden 1,58-Bit-Ternär-Quantisierungsansatz aus Projekten wie BitNet b1.58. Er betont die Einfachheit ternärer Modelle, die für Gewichte nur -1, 0 oder +1 verwenden, im Gegensatz zu Standard-Post-Training-Quantisierungstechniken.

Model Compression LLMs AI optimization quantization

ARTICLEDEV.to AI·vor 29T

When I started running models locally, I thought quantization meant squeezing more into RAM. Turns o

Der Artikel rät von der Standardverwendung von Q4_K_M für die lokale LLM-Inferenz ab und betont, dass optimale Leistung durch das Testen von Quantisierungsstufen erzielt wird, die auf spezifische Workflows zugeschnitten sind. Er schlägt vor, dass aggressive Quantisierung wie Q3_K_S die Latenz erheblich reduzieren kann, mit kaum wahrnehmbarem Qualitätsverlust für viele Aufgaben, obwohl die Kontextlänge einen Kompromiss darstellt.

Optimization LLMs quantization hardware

RESEARCHarXiv CS.LG·4/24/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse ist ein neues Inferenzsystem, das für reine CPU-Plattformen entwickelt wurde und die multiplikationsfreie Ausführung großer Sprachmodelle ermöglicht. Es verwendet ternäre Gewichte ({-1, 0, +1}), um Gleitkomma-Multiplikationen durch bedingte Additionen und Subtraktionen zu ersetzen, was Speicherbandbreiten-Engpässe erheblich reduziert und eine Gewichtskompression von bis zu 16x bietet.

inference CPU optimization quantization performance

RESEARCHarXiv CS.LG·vor 28T

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Diese Forschung analysiert drei KV-Cache-Quantisierungsschemata (KV, KQV, QKQV) und deren Einfluss auf die Varianz des inneren Produkts, insbesondere wie QJL auf K diese aufbläht, verstärkt durch Softmax. Empirische Ergebnisse heben die überlegene Leistung von KQV bei einem Budget von n=4 hervor, eine bedingungslose K-V-Asymmetrie, bei der QKQV in der KL-Divergenz durchweg schlechter ist als KQV, und budgetabhängige Überschneidungen für die geometrische K-Rekonstruktion.

machine learning quantization AI statistical inference

RESEARCHarXiv CS.LG·5/7/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Diese Forschung stellt MP-ISMoE vor, ein Mixed-Precision Interactive Side Mixture-of-Experts-Framework, um das parameter-effiziente Transferlernen durch die Reduzierung des Speicheraufwands zu verbessern. Es verwendet ein Schema zur Gaußschen Rausch-gestörten iterativen Quantisierung (GNP-IQ) für die Quantisierung von Gewichten mit geringerer Bittiefe, wodurch Speicher freigegeben wird, um die Lernkapazität und Leistung des Seitennetzwerks zu verbessern.

model efficiency learning Transfer Learning quantization

RESEARCHarXiv CS.LG·5/7/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Diese Forschung stellt EdgeRazor vor, ein leichtgewichtiges Framework zur Bereitstellung großer Sprachmodelle auf ressourcenbeschränkten Geräten. Es nutzt gemischt-präzise quantisierungsbewusste Destillation, um Modelle voller Präzision in Formate mit geringerer Bitrate umzuwandeln und so die Einschränkungen früherer Quantisierungsmethoden zu überwinden.

LLMs deep learning quantization model optimization

RESEARCHarXiv CS.LG·vor 20T

Theory-optimal Quantization Based on Flatness

Diese Forschung modelliert die Beziehung zwischen Quantisierungsfehler und Ausreißern in großen Sprachmodellen (LLMs) und führt eine neue Metrik, Flatness, zur Quantifizierung der Ausreißerverteilung ein. Basierend darauf wird eine theoretisch optimale Lösung abgeleitet und die bidirektionale diagonale Quantisierung (BDQ) für die Post-Training-Quantisierung vorgeschlagen.

deep learning machine learning quantization AI

RESEARCHarXiv CS.LG·vor 27T

QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization

QuIDE schlägt eine einheitliche Metrik, den Intelligenzindex I, zur Bewertung der Effizienz quantisierter neuronaler Netze vor, indem es den Kompressions-Genauigkeits-Latenz-Kompromiss zusammenfasst. Experimente zeigen eine aufgabenabhängige optimale Quantisierung (4- oder 8-Bit), die ein reproduzierbares Bewertungsprotokoll und eine Fitnessfunktion für die gemischte Präzisionssuche bietet.

neural networks Optimization machine learning AI Efficiency

RESEARCHarXiv CS.LG·vor 22T

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Diese Studie untersucht die Auswirkungen der Post-Training-Quantisierung auf die Qualität großer Sprachmodelle (LLMs) und zeigt, dass Komprimierung zur Entstehung von Voreingenommenheit führen kann. Eine 3-Bit-Quantisierung führte dazu, dass 6-21% der zuvor unvoreingenommenen Elemente neue stereotype Verhaltensweisen entwickelten, was ein klares Dosis-Wirkungs-Muster zeigte.

Model Compression LLMs quantization model quality

ARTICLEDEV.to AI·5/8/2026

The Mobile Architect: Bridging the AI Gap Without a PC

Der Autor teilt seine Erfahrung beim Programmieren auf einem Smartphone und erkennt, dass KI-Entwicklung überall stattfinden kann. Das Gemma 4 E2B-Modell ist ein Wendepunkt, der es ermöglicht, KI effizient auf mobilen Geräten mit geringem RAM-Verbrauch auszuführen und den Zugang für Studenten und Entwickler zu demokratisieren.

mobile development Edge AI Gemma 4 AI on Mobile

DOCDEV.to AI·vor 14T

How to Deploy Llama 3.2 90B with vLLM + Quantization on a $20/Month DigitalOcean GPU Droplet: Enterprise Reasoning at 1/140th Claude Opus Cost

Dieser Inhalt bietet eine Anleitung zur Bereitstellung des Llama 3.2 90B-Modells mit vLLM und Quantisierung auf einem DigitalOcean GPU-Droplet für nur 20 $/Monat. Diese Einrichtung bietet Reasoning-Fähigkeiten auf Unternehmensniveau zu Kosten, die 25-mal niedriger sind als bei Claude Opus, was erhebliche Einsparungen bei der KI-Infrastruktur ermöglicht.

AI deployment quantization Cost Optimization DigitalOcean

ARTICLEOpenAI Blog·vor 29T

What Parameter Golf taught us about AI-assisted research

Parameter Golf brachte über 1.000 Teilnehmer und 2.000 Einreichungen zusammen, um KI-gestützte Machine-Learning-Forschung zu erkunden. Die Veranstaltung konzentrierte sich auf Codierungsagenten, Quantisierung und neuartige Modellentwicklung unter strengen Auflagen.

research machine learning quantization AI

NEWSML Mastery·4/30/2026

Effective KV Compression with TurboQuant

Google hat kürzlich TurboQuant auf den Markt gebracht, eine neuartige algorithmische Suite und Bibliothek zur Anwendung fortschrittlicher Quantisierung und Komprimierung auf große Sprachmodelle (LLMs) und Vektorsuchmaschinen. Dieses Tool ist ein unverzichtbares Element von RAG-Systemen.

LLMs quantization vector search RAG systems

Effective KV Compression with TurboQuant

ARTICLEDEV.to AI·4/14/2026

Best Open-Source Models for OpenClaw — Run Locally, No API Costs

Dieser Artikel empfiehlt die besten Open-Source-KI-Modelle für die lokale Ausführung auf OpenClaw im April 2026, darunter Qwen3.5:27b als besten Allrounder, DeepSeek-R1-Distill-32B für Codierung und Llama 4 Scout für multimodale Aufgaben. Er detailliert VRAM-Anforderungen und Benchmark-Leistung für jedes Modell.

open source models LLMs GPU local inference

NEWSDEV.to AI·4/14/2026

Autonomous Sovereign AI Nodes: v10082 Deployment Log

Dies ist ein Einsatzprotokoll für autonome, souveräne KI-Knoten v10082 im Rahmen des FractalMesh Omega Titan Projekts. Es beschreibt die vollständige Edge-Quantisierung auf Termux-Hardware, verwaltet von Samuel James Hiotis.

deployment Edge AI Autonomous systems quantization