← heapsort-ai

quantization

57 items

RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Dieser Inhalt bewertet die Leistung des quantisierten MoE-Modells Qwen 3.6 35B A3B Q4_K_M auf der CPU, unter Verwendung von Benchmarks wie HumanEval, HellaSwag und BFCL. Es erreichte 22 Tokens/Sekunde und zeigte eine starke Leistung bei Schlussfolgerungen des gesunden Menschenverstandes (74%) sowie solide Ergebnisse für ein aktives 3B MoE-Modell.

Qwen 3.6 35B A3B Q4_K_M quant evaluation
42
RESEARCH↑ trendingReddit r/LocalLLaMA·5/6/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

Dieser Inhalt vergleicht die Qualität verschiedener Qwen 3.6 27B Modell-Quantisierungen mittels eines benutzerdefinierten Schachspiels, um die optimale Option für 16 GB VRAM-Setups zu finden. Es bewertet die Fähigkeit der Modelle, den Zustand des Bretts zu verfolgen und genaue SVG-Bilder zu generieren.

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)
42
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 28T

I got a real transformer language model running locally on a stock Game Boy Color!

Ein Transformer-Sprachmodell (TinyStories-260K) wurde erfolgreich lokal auf einem handelsüblichen Game Boy Color ausgeführt, unter Verwendung von INT8-Gewichten und Festkomma-Arithmetik. Diese beeindruckende technische Leistung umfasste ein benutzerdefiniertes ROM und die Tokenisierung auf dem Gerät, trotz extrem langsamer Leistung und unsinniger Ausgabe.

I got a real transformer language model running locally on a stock Game Boy Color!
42
RESEARCH↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen3.6 GGUF Benchmarks

Dieser Inhalt präsentiert KLD-Performance-Benchmarks für Unsloth's Qwen3.6-35B-A3B GGUF-Quants, die deren Effizienz in Bezug auf KLD versus Speicherplatz hervorheben. Es wird zudem klargestellt, dass häufige GGUF-Updates in der Regel auf externe Fehlerbehebungen oder offizielle Verbesserungen zurückzuführen sind und nicht auf interne Fehler von Unsloth.

Qwen3.6 GGUF Benchmarks
41
RESEARCHarXiv CS.LG·vor 1T

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Diffusions-Large Language Models (dLLMs) leiden unter einem "Stabilitätsrückstand" aufgrund irreversibler Token-Commitments, ein Problem, das durch Fehler bei der Post-Training Quantization (PTQ) verschärft wird. FAIR-Calib schlägt ein zweistufiges PTQ-Framework vor, das ein Positions-Prior und schichtweise Kalibrierung nutzt, um fragile Grenzschichtzustände zu schützen und so die Quantisierung für dLLMs zu verbessern.

36
ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Major drop in intelligence across most major models.

Der Autor berichtet über einen erheblichen Intelligenzrückgang bei großen KI-Modellen (wie ChatGPT, Claude, Gemini und Grok) seit Mitte April 2026, wobei er beobachtete, dass Anweisungen ignoriert und oberflächliche Antworten gegeben wurden. Dies wird als mögliche Folge von Quantisierungsreduzierung oder einer bewussten Strategie vermutet, und er schlägt die Nutzung gemieteter GPUs oder lokaler KI vor.

35
ARTICLEDEV.to AI·4/19/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

Der Inhalt hebt Inferenzoptimierung als den kritischen Trend hervor, der die LLM-Infrastruktur bis 2026 prägen wird, und betont deren Bedeutung gegenüber der Modellgröße. Es wird erklärt, dass Training zwar eine einmalige Ausgabe ist, Inferenz jedoch eine fortlaufende Ausgabe darstellt, die Margen und Benutzererfahrung direkt beeinflusst und Effizienz somit entscheidend macht.

30
RESEARCHarXiv CS.LG·vor 29T

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Dieses Papier stellt RateQuant vor, eine Methode zur optimalen gemischt-präzisen KV-Cache-Quantisierung in großen Sprachmodellen, um Speicherengpässe zu beheben. Es befasst sich mit dem Problem der Diskrepanz des Distorsionsmodells, bei dem die Anwendung des Distorsionsmodells eines Quantisierers auf einen anderen die Leistung im Vergleich zur gleichmäßigen Quantisierung verschlechtert.

29
RESEARCHarXiv CS.LG·5/6/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ ist eine zweistufige Kompressionspipeline für den KV-Cache in Transformer-Aufmerksamkeitsköpfen. Sie nutzt optimale Singulärwertschrumpfung und per-Vektor-Skalarquantisierung, basierend auf der Theorie der Zufallsmatrizen, um eine nahezu verlustfreie Kompression zu erreichen und die Rekonstruktion zu verbessern.

29
RESEARCHarXiv CS.LG·4/8/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

28
DOCDEV.to AI·vor 10T

How to Deploy Qwen2.5 72B with vLLM + AWQ Quantization on a $24/Month DigitalOcean GPU Droplet: Multilingual Reasoning at 1/110th Claude Opus Cost

Diese Anleitung beschreibt, wie Qwen2.5 72B mit vLLM und AWQ-Quantisierung auf einem DigitalOcean GPU Droplet für nur 24 $/Monat bereitgestellt wird. Sie zeigt eine erhebliche Kostenreduzierung im Vergleich zu kommerziellen KI-APIs wie Claude Opus und bietet mehrsprachiges Reasoning auf Unternehmensniveau zu einem Bruchteil des Preises.

28
RESEARCHarXiv CS.CL·vor 19T

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Diese Forschung untersucht, wie verschiedene niedrigbitige Quantisierungsstufen die Leistung von LLaMA-3.1 in der qualitativen Analyse beeinflussen, wobei festgestellt wird, dass Modelle mit geringer Bitrate oft Halluzinationen erzeugen. Es wird eine quantisierungsbewusste Mehrfach-Prompt-Verifizierungsmethode vorgeschlagen, um die Genauigkeit durch systematische Reduzierung von Halluzinationen und Filterung unzuverlässiger Inhalte zu verbessern.

28
ARTICLEDEV.to AI·vor 15T

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Dieser Artikel vergleicht die 16-, 8- und 4-Bit-Quantisierung von LLMs und zeigt, dass 4-Bit, obwohl schneller, die Qualität bei Denk- und mathematischen Aufgaben erheblich beeinträchtigt. Der eigentliche Kompromiss liegt zwischen der Aufgabe und der erforderlichen Präzision, wobei 8-Bit optimal für präzise Aufgaben ist und minimalen Qualitätsverlust bei geringfügiger Geschwindigkeitseinbuße bietet. Die Wahl der Quantisierung sollte auf der Aufgabe und Hardware-Überlegungen basieren, nicht nur auf der Hardware.

27
RESEARCHarXiv CS.LG·vor 7T

BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization

BitsMoE schlägt ein spektralenergiegesteuertes Bit-Allokations-Framework für die Quantisierung von Mixture-of-Experts (MoE) Large Language Models vor. Es zielt darauf ab, den speicherintensiven Einsatz durch die Zerlegung von MoE-Schichten und die Verwendung experten-spezifischer Spektralfaktoren für eine fein abgestufte gemischte Präzisionsquantisierung zu reduzieren.

27