quantization

57 items

RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Dieser Inhalt bewertet die Leistung des quantisierten MoE-Modells Qwen 3.6 35B A3B Q4_K_M auf der CPU, unter Verwendung von Benchmarks wie HumanEval, HellaSwag und BFCL. Es erreichte 22 Tokens/Sekunde und zeigte eine starke Leistung bei Schlussfolgerungen des gesunden Menschenverstandes (74%) sowie solide Ergebnisse für ein aktives 3B MoE-Modell.

AI model evaluation Benchmarking quantization MoE

Qwen 3.6 35B A3B Q4_K_M quant evaluation

RESEARCH↑ trendingReddit r/LocalLLaMA·5/6/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

Dieser Inhalt vergleicht die Qualität verschiedener Qwen 3.6 27B Modell-Quantisierungen mittels eines benutzerdefinierten Schachspiels, um die optimale Option für 16 GB VRAM-Setups zu finden. Es bewertet die Fähigkeit der Modelle, den Zustand des Bretts zu verfolgen und genaue SVG-Bilder zu generieren.

VRAM Benchmarking quantization model quality

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 28T

I got a real transformer language model running locally on a stock Game Boy Color!

Ein Transformer-Sprachmodell (TinyStories-260K) wurde erfolgreich lokal auf einem handelsüblichen Game Boy Color ausgeführt, unter Verwendung von INT8-Gewichten und Festkomma-Arithmetik. Diese beeindruckende technische Leistung umfasste ein benutzerdefiniertes ROM und die Tokenisierung auf dem Gerät, trotz extrem langsamer Leistung und unsinniger Ausgabe.

Hardware Acceleration Edge AI quantization AI inference

I got a real transformer language model running locally on a stock Game Boy Color!

ARTICLE↑ trendingReddit r/LocalLLaMA·4/24/2026

Takeaways & discussion about the DeepSeek V4 architecture

Dieser Artikel behandelt die architektonischen Neuerungen von DeepSeek V4, wobei sein hybrides Aufmerksamkeits-System (CSA + HCA) und die Manifold-Constrained Hyper-Connections hervorgehoben werden. Er bespricht auch das FP4 QAT-Training im Grenzbereich und unterscheidet es von früheren Modellen.

DeepSeek deep learning attention mechanisms quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen3.6 GGUF Benchmarks

Dieser Inhalt präsentiert KLD-Performance-Benchmarks für Unsloth's Qwen3.6-35B-A3B GGUF-Quants, die deren Effizienz in Bezug auf KLD versus Speicherplatz hervorheben. Es wird zudem klargestellt, dass häufige GGUF-Updates in der Regel auf externe Fehlerbehebungen oder offizielle Verbesserungen zurückzuführen sind und nicht auf interne Fehler von Unsloth.

LLMs quantization Benchmarks

CASE↑ trendingReddit r/MachineLearning·4/27/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Ein Benutzer stellte fest, dass die INT8-Quantisierung in seinem Deep-Learning-Modell eine bessere Inferenzgenauigkeit als FP16 lieferte, was unerwartet war. Er sucht nach Erklärungen für die überlegene Leistung von INT8 gegenüber FP16.

inference ONNX deep learning quantization

NEWS↑ trendingReddit r/LocalLLaMA·4/27/2026

AMD Hipfire - a new inference engine optimized for AMD GPU's

Der Inhalt stellt Hipfire vor, eine neue Inferenz-Engine, die für alle AMD GPUs optimiert ist und eine spezielle mq4 Quantisierungsmethode verwendet. Erste Benchmarks von Localmaxxing zeigen dramatische Geschwindigkeitsverbesserungen, obwohl der Ersteller klarstellt, dass keine offizielle Verbindung zu AMD besteht.

Benchmarking GPU optimization AMD quantization

NEWS↑ trendingReddit r/LocalLLaMA·4/15/2026

What is the current status with Turbo Quant?

Dieses Anliegen fragt nach dem aktuellen Stand der "Turbo Quant"-Technologie, nachdem vor rund zwei Wochen Hype darum entstand und Pull Requests in llama.cpp erwähnt wurden. Es wird um ein Update zu ihrer Entwicklung und Akzeptanz gebeten.

Turbo Quant llama.cpp quantization AI development

RESEARCHarXiv CS.LG·vor 1T

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Diffusions-Large Language Models (dLLMs) leiden unter einem "Stabilitätsrückstand" aufgrund irreversibler Token-Commitments, ein Problem, das durch Fehler bei der Post-Training Quantization (PTQ) verschärft wird. FAIR-Calib schlägt ein zweistufiges PTQ-Framework vor, das ein Positions-Prior und schichtweise Kalibrierung nutzt, um fragile Grenzschichtzustände zu schützen und so die Quantisierung für dLLMs zu verbessern.

Diffusion Models post-training quantization quantization AI calibration

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Major drop in intelligence across most major models.

Der Autor berichtet über einen erheblichen Intelligenzrückgang bei großen KI-Modellen (wie ChatGPT, Claude, Gemini und Grok) seit Mitte April 2026, wobei er beobachtete, dass Anweisungen ignoriert und oberflächliche Antworten gegeben wurden. Dies wird als mögliche Folge von Quantisierungsreduzierung oder einer bewussten Strategie vermutet, und er schlägt die Nutzung gemieteter GPUs oder lokaler KI vor.

quantization Local AI model degradation AI intelligence drop

ARTICLEDEV.to AI·4/19/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

Der Inhalt hebt Inferenzoptimierung als den kritischen Trend hervor, der die LLM-Infrastruktur bis 2026 prägen wird, und betont deren Bedeutung gegenüber der Modellgröße. Es wird erklärt, dass Training zwar eine einmalige Ausgabe ist, Inferenz jedoch eine fortlaufende Ausgabe darstellt, die Margen und Benutzererfahrung direkt beeinflusst und Effizienz somit entscheidend macht.

quantization AI infrastructure Inference Optimization Cost Efficiency

RESEARCHarXiv CS.LG·vor 29T

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Dieses Papier stellt RateQuant vor, eine Methode zur optimalen gemischt-präzisen KV-Cache-Quantisierung in großen Sprachmodellen, um Speicherengpässe zu beheben. Es befasst sich mit dem Problem der Diskrepanz des Distorsionsmodells, bei dem die Anwendung des Distorsionsmodells eines Quantisierers auf einen anderen die Leistung im Vergleich zur gleichmäßigen Quantisierung verschlechtert.

Memory Optimization quantization AI Research LLM

RESEARCHarXiv CS.LG·5/6/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ ist eine zweistufige Kompressionspipeline für den KV-Cache in Transformer-Aufmerksamkeitsköpfen. Sie nutzt optimale Singulärwertschrumpfung und per-Vektor-Skalarquantisierung, basierend auf der Theorie der Zufallsmatrizen, um eine nahezu verlustfreie Kompression zu erreichen und die Rekonstruktion zu verbessern.

quantization Random matrix theory AI compression KV cache

RESEARCHarXiv CS.LG·vor 5T

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant ist ein neuartiges Framework zur kontinuierlichen Bitbreitensteuerung in großen Sprachmodellen, das die Einschränkungen der ganzzahlbasierten Quantisierung überwindet. Es verwendet einen "Lift-then-Project"-Mechanismus zur quasi-kontinuierlichen Bitbreitenanpassung für eine optimale Bereitstellung.

Model Compression neural networks LLMs deep learning

RESEARCHarXiv CS.LG·4/8/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

DOCDEV.to AI·vor 10T

How to Deploy Qwen2.5 72B with vLLM + AWQ Quantization on a $24/Month DigitalOcean GPU Droplet: Multilingual Reasoning at 1/110th Claude Opus Cost

Diese Anleitung beschreibt, wie Qwen2.5 72B mit vLLM und AWQ-Quantisierung auf einem DigitalOcean GPU Droplet für nur 24 $/Monat bereitgestellt wird. Sie zeigt eine erhebliche Kostenreduzierung im Vergleich zu kommerziellen KI-APIs wie Claude Opus und bietet mehrsprachiges Reasoning auf Unternehmensniveau zu einem Bruchteil des Preises.

deployment quantization Cost Optimization DigitalOcean

RESEARCHarXiv CS.CL·vor 19T

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Diese Forschung untersucht, wie verschiedene niedrigbitige Quantisierungsstufen die Leistung von LLaMA-3.1 in der qualitativen Analyse beeinflussen, wobei festgestellt wird, dass Modelle mit geringer Bitrate oft Halluzinationen erzeugen. Es wird eine quantisierungsbewusste Mehrfach-Prompt-Verifizierungsmethode vorgeschlagen, um die Genauigkeit durch systematische Reduzierung von Halluzinationen und Filterung unzuverlässiger Inhalte zu verbessern.

model performance Qualitative Analysis LLMs hallucinations

RESEARCHDEV.to AI·vor 28T

Federated Learning With Quantized Global Model Updates

Dieser Inhalt untersucht die Technik des föderierten Lernens, insbesondere wie quantisierte globale Modellaktualisierungen dessen Effizienz optimieren können. Er behandelt wahrscheinlich Methoden zur Reduzierung des Kommunikationsaufwands und der Berechnungskosten in verteilten maschinellen Lernumgebungen.

Model updates machine learning quantization federated learning

ARTICLEDEV.to AI·vor 15T

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Dieser Artikel vergleicht die 16-, 8- und 4-Bit-Quantisierung von LLMs und zeigt, dass 4-Bit, obwohl schneller, die Qualität bei Denk- und mathematischen Aufgaben erheblich beeinträchtigt. Der eigentliche Kompromiss liegt zwischen der Aufgabe und der erforderlichen Präzision, wobei 8-Bit optimal für präzise Aufgaben ist und minimalen Qualitätsverlust bei geringfügiger Geschwindigkeitseinbuße bietet. Die Wahl der Quantisierung sollte auf der Aufgabe und Hardware-Überlegungen basieren, nicht nur auf der Hardware.

inference speed model performance quantization hardware

RESEARCHarXiv CS.LG·vor 7T

BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization

BitsMoE schlägt ein spektralenergiegesteuertes Bit-Allokations-Framework für die Quantisierung von Mixture-of-Experts (MoE) Large Language Models vor. Es zielt darauf ab, den speicherintensiven Einsatz durch die Zerlegung von MoE-Schichten und die Verwendung experten-spezifischer Spektralfaktoren für eine fein abgestufte gemischte Präzisionsquantisierung zu reduzieren.

MoE models deep learning AI optimization quantization