← heapsort-ai

quantization

57 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

Gemma 4 31B — 4bit is all you need

Dieser Inhalt vergleicht die Leistung der 4-Bit- und 8-Bit-quantisierten Versionen von Gemma 4 31B auf einem M5 Max MacBook Pro und stellt überraschend fest, dass die 4-Bit-Version höhere Punktzahlen erzielte (91,3 % vs. 88,4 %). Es wird auch ein Problem festgestellt, bei dem Gemma 4 26B-A4B in eine Regressionsschleife geriet und Antworten nach Erreichen des maximalen Token-Limits von 16.384 abschnitt.

Gemma 4 31B — 4bit is all you need
67
ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

Der Benutzer optimiert ein Transformer-Modell hinsichtlich Größe und Inferenzgeschwindigkeit, ist jedoch nach FP16 und ONNX an ein Plateau gestoßen, da Pruning kaum Gewinne brachte. Er sucht Rat zu nächsten Schritten wie Niederrang-Faktorisierung, aggressiver Quantisierung oder Wissensdestillation für echte Verbesserungen.

50
RESEARCH↑ trendingReddit r/LocalLLaMA·4/22/2026

Personal Eval follow-up: Gemma4 26B MoE (Q8) vs Qwen3.5 27B Dense vs Gemma4 31B Dense Compared

Dieser Folgebericht vergleicht die Modelle Gemma4 26B MoE (Q8), Qwen3.5 27B Dense und Gemma4 31B Dense, einschließlich früherer Ergebnisse von Qwen 3.6 35B und Gemma 4 26B (Q4). Die Analyse bewertet ihre Leistung und hebt den Einfluss der 8-Bit-Quantisierung sowie die Effektivität verschiedener Modellarchitekturen hervor.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Ein Nutzer entdeckte und behob ein signifikantes Tensor-Drift-Problem in den `ssm_conv1d`-Layern quantisierter Qwen3.6-35B GGUF-Modelle und schlug die Wasserstein-Metrik als überlegen gegenüber Kullback-Leibler zur Erkennung numerischer Instabilität vor. Die Korrektur, die speziell auf rekurrente Zustandsübergangsschichten für Langkontextgedächtnis abzielt, ist nun in einem geteilten Modell verfügbar.

44
DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Dieser Inhalt beschreibt die Implementierung von Multi-Token Prediction (MTP) mit quantisierten GGUFs für Qwen3-27B, wobei Unsloths UD XL Quantisierungen mit aufgepfropften Q8_0 MTP-Layern verwendet werden, was zu einem 2,5-fachen Durchsatz führt. Der Autor teilt gepfropfte GGUF-Dateien, den Quellcode der MTP-Layer und ein Konvertierungsskript, zusammen mit Build-Anleitungen für eine angepasste llama.cpp-Version, die die spekulative Dekodierungsunterstützung aus einem noch nicht zusammengeführten PR enthält.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·4/13/2026

Experiment: Olmo 3 7B Instruct Q1_0

Der Autor versuchte, OLMo-3 7B Instruct mittels quantisierungsbewusster Destillation in ein 1-Bit-Format zu quantisieren, indem er das Modell 12 Stunden lang auf 4x B200 GPUs trainierte. Obwohl das resultierende Modell rudimentäres Englisch erzeugen kann, ist es aufgrund von Wiederholungsschleifen und mangelnder Kontextverfolgung – zurückzuführen auf einen vorzeitigen Trainingsabbruch und eine ungeeignete Datensatzwahl – generell unbrauchbar.

Experiment: Olmo 3 7B Instruct Q1_0
43
RESEARCH↑ trendingReddit r/LocalLLaMA·vor 26T

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Eine umfassende Studie zu TurboQuant vergleicht dessen Varianten (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) mit FP8 für die KV-Cache-Quantisierung. FP8 wird als Standard empfohlen, da es die doppelte Kapazität mit vernachlässigbarem Genauigkeitsverlust und guter Leistung bietet. TurboQuant-Varianten zeigen begrenzte Vorteile oder erhebliche Einbußen bei Genauigkeit und Leistung, wobei 4bit-nc eine Option für speicherbeschränkte Szenarien ist.

A First Comprehensive Study of TurboQuant: Accuracy and Performance
43
ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

Eine Untersuchung von MiniMax-M2.7 GGUF ergab, dass Perplexity-NaNs 21-38% der GGUFs auf Hugging Face betreffen. Das Problem wurde auf einen Überlauf in llama.cpp zurückgeführt, speziell in `blk.61.ffn_down_exps` für Q5_K- und Q4_K-Quantisierungen, und das Team hat ihren Fehler behoben.

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks
42
RESEARCH↑ trendingReddit r/LocalLLaMA·5/7/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant ist eine neuartige Technik, die die paarweise Rotationsquantisierung einsetzt, um die Effizienz der Inferenz von Großen Sprachmodellen (LLM) erheblich zu verbessern. Diese Methode zielt speziell auf Reasoning-LLMs ab und ermöglicht einen kostengünstigeren und schnelleren Einsatz durch Reduzierung der Rechen- und Speicheranforderungen.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

Der Autor untersucht, warum ein spezifisches Qwen3.6 27B INT8 Autoround Quantisierungsrezept andere übertrifft, wobei er beobachtet, dass das Modell weniger "denkt", aber bessere Ergebnisse in Benchmarks liefert. Er replizierte diese Leistung dann mit einer neuen GGUF-Quantisierung und stellte fest, dass beide durchweg schneller zu Antworten kommen als UD Q8 K XL.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 18T

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Dieser Inhalt behandelt eine Herausforderung in llama.cpp bezüglich der asymmetrischen KV q8/q4 Cache-Quantisierung, die zur CPU-Verarbeitung unter CUDA führen kann. Eine GitHub-Diskussion zeigt, dass das Kompilieren mit einer spezifischen KV-Cache-Quantisierungskombination erhebliche Speichereinsparungen bei nur 1,3 % Präzisionsverlust ermöglicht.

42
RESEARCH↑ trendingReddit r/MachineLearning·4/11/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·4/14/2026

Updated Qwen3.5-9B Quantization Comparison

Dieser Inhalt vergleicht verschiedene GGUF-Quantisierungen des Qwen3.5-9B-Modells mittels KL-Divergenz (KLD), um deren Treue zur BF16-Baseline zu bewerten. Ziel ist es, Nutzern eine datengestützte Grundlage für die Auswahl der treuesten quantisierten Datei zu bieten, wobei niedrigere KLD-Werte auf einen geringeren Informationsverlust hindeuten.

Updated Qwen3.5-9B Quantization Comparison
42