quantization

57 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

Gemma 4 31B — 4bit is all you need

Dieser Inhalt vergleicht die Leistung der 4-Bit- und 8-Bit-quantisierten Versionen von Gemma 4 31B auf einem M5 Max MacBook Pro und stellt überraschend fest, dass die 4-Bit-Version höhere Punktzahlen erzielte (91,3 % vs. 88,4 %). Es wird auch ein Problem festgestellt, bei dem Gemma 4 26B-A4B in eine Regressionsschleife geriet und Antworten nach Erreichen des maximalen Token-Limits von 16.384 abschnitt.

4bit 8bit Gemma quantization

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

Der Benutzer optimiert ein Transformer-Modell hinsichtlich Größe und Inferenzgeschwindigkeit, ist jedoch nach FP16 und ONNX an ein Plateau gestoßen, da Pruning kaum Gewinne brachte. Er sucht Rat zu nächsten Schritten wie Niederrang-Faktorisierung, aggressiver Quantisierung oder Wissensdestillation für echte Verbesserungen.

Pruning inference Transformer quantization

NEWS↑ trendingReddit r/MachineLearning·4/21/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Chaperone-Thinking-LQ-1.0, ein 4-bit GPTQ + QLoRA-feinabgestimmtes DeepSeek-R1-32B-Modell, wurde als Open Source veröffentlicht. Es erreicht 84 % Genauigkeit auf MedQA, nahe an GPT-4o, bei einer Größe von nur ~20GB und ist 1,6x schneller als das Basismodell.

Open Source Benchmarking quantization Fine-tuning

NEWS↑ trendingReddit r/MachineLearning·4/22/2026

INT3 compression+fused metal kernels [R]

Ein alleiniger Gründer und Forscher hat INT3-Modellkomprimierung und einen 2-Bit-KV-Cache mit kundenspezifischen, fusionierten Metal-Kernels für Mac (M-Serie) entwickelt. Qwen 7B ist als Vorschau verfügbar, und weitere Optimierungen sowie GPU-Unterstützung sind geplant.

Hardware Acceleration LLMs quantization model optimization

ARTICLE↑ trendingReddit r/MachineLearning·4/12/2026

ArcFace embeddings quantized to 16-bit pgvector HALFVEC ? [D]

Der Inhalt behandelt die Optimierung von 512-dimensionalen ArcFace-Embeddings in PostgreSQL, die TOAST-Grenzen überschreiten und den I/O erhöhen. Es wird vorgeschlagen, diese auf 16-Bit (HALFVEC) zu quantisieren, um Speicherplatz und I/O zu halbieren, während die Auswirkungen auf die Präzision hinterfragt werden.

quantization pgvector embeddings PostgreSQL

RESEARCH↑ trendingReddit r/LocalLLaMA·4/22/2026

Personal Eval follow-up: Gemma4 26B MoE (Q8) vs Qwen3.5 27B Dense vs Gemma4 31B Dense Compared

Dieser Folgebericht vergleicht die Modelle Gemma4 26B MoE (Q8), Qwen3.5 27B Dense und Gemma4 31B Dense, einschließlich früherer Ergebnisse von Qwen 3.6 35B und Gemma 4 26B (Q4). Die Analyse bewertet ihre Leistung und hebt den Einfluss der 8-Bit-Quantisierung sowie die Effektivität verschiedener Modellarchitekturen hervor.

Benchmarking Gemma model comparison quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Ein Nutzer entdeckte und behob ein signifikantes Tensor-Drift-Problem in den `ssm_conv1d`-Layern quantisierter Qwen3.6-35B GGUF-Modelle und schlug die Wasserstein-Metrik als überlegen gegenüber Kullback-Leibler zur Erkennung numerischer Instabilität vor. Die Korrektur, die speziell auf rekurrente Zustandsübergangsschichten für Langkontextgedächtnis abzielt, ist nun in einem geteilten Modell verfügbar.

LLMs quantization GGUF model optimization

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Dieser Inhalt beschreibt die Implementierung von Multi-Token Prediction (MTP) mit quantisierten GGUFs für Qwen3-27B, wobei Unsloths UD XL Quantisierungen mit aufgepfropften Q8_0 MTP-Layern verwendet werden, was zu einem 2,5-fachen Durchsatz führt. Der Autor teilt gepfropfte GGUF-Dateien, den Quellcode der MTP-Layer und ein Konvertierungsskript, zusammen mit Build-Anleitungen für eine angepasste llama.cpp-Version, die die spekulative Dekodierungsunterstützung aus einem noch nicht zusammengeführten PR enthält.

Multi-Token Prediction llama.cpp quantization large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·4/13/2026

Experiment: Olmo 3 7B Instruct Q1_0

Der Autor versuchte, OLMo-3 7B Instruct mittels quantisierungsbewusster Destillation in ein 1-Bit-Format zu quantisieren, indem er das Modell 12 Stunden lang auf 4x B200 GPUs trainierte. Obwohl das resultierende Modell rudimentäres Englisch erzeugen kann, ist es aufgrund von Wiederholungsschleifen und mangelnder Kontextverfolgung – zurückzuführen auf einen vorzeitigen Trainingsabbruch und eine ungeeignete Datensatzwahl – generell unbrauchbar.

OLMo-3 distillation quantization 1-bit model

RESEARCH↑ trendingReddit r/LocalLLaMA·vor 26T

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Eine umfassende Studie zu TurboQuant vergleicht dessen Varianten (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) mit FP8 für die KV-Cache-Quantisierung. FP8 wird als Standard empfohlen, da es die doppelte Kapazität mit vernachlässigbarem Genauigkeitsverlust und guter Leistung bietet. TurboQuant-Varianten zeigen begrenzte Vorteile oder erhebliche Einbußen bei Genauigkeit und Leistung, wobei 4bit-nc eine Option für speicherbeschränkte Szenarien ist.

AI models TurboQuant Performance optimization FP8

A First Comprehensive Study of TurboQuant: Accuracy and Performance

DOC↑ trendingReddit r/MachineLearning·4/22/2026

Need Info on quality benchmarks to run on DeepSeek V3.2 different quant levels [D]

Ein Benutzer sucht Ratschläge, welche Qualitäts-Benchmarks durchgeführt werden sollten, um den Leistungsabfall bei der Anwendung von Laufzeit-Quantisierung auf das DeepSeek V3.2 große Sprachmodell zu messen. Ziel ist es, den Qualitätsverlust im Vergleich zur nicht-quantisierten Version zu bewerten.

Benchmarking quantization model optimization AI evaluation

NEWS↑ trendingReddit r/LocalLLaMA·4/10/2026

Update on Gemma 4 having MTP: Reverse engineering effort

O autor extraiu os pesos do modelo Gemma 4 em arquivos TFLite e agora busca ajuda da comunidade, especialmente de especialistas em C++, para convertê-los em um módulo Pytorch. O processo envolve desafios como a desquantização INT8 e a exploração de ferramentas como o Google AI Edge Model explorer.

Gemma 4 machine learning quantization model conversion

ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

Eine Untersuchung von MiniMax-M2.7 GGUF ergab, dass Perplexity-NaNs 21-38% der GGUFs auf Hugging Face betreffen. Das Problem wurde auf einen Überlauf in llama.cpp zurückgeführt, speziell in `blk.61.ffn_down_exps` für Q5_K- und Q4_K-Quantisierungen, und das Team hat ihren Fehler behoben.

Perplexity NaNs quantization GGUF

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

RESEARCH↑ trendingReddit r/LocalLLaMA·5/7/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant ist eine neuartige Technik, die die paarweise Rotationsquantisierung einsetzt, um die Effizienz der Inferenz von Großen Sprachmodellen (LLM) erheblich zu verbessern. Diese Methode zielt speziell auf Reasoning-LLMs ab und ermöglicht einen kostengünstigeren und schnelleren Einsatz durch Reduzierung der Rechen- und Speicheranforderungen.

Optimization LLMs efficiency quantization

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

Der Autor untersucht, warum ein spezifisches Qwen3.6 27B INT8 Autoround Quantisierungsrezept andere übertrifft, wobei er beobachtet, dass das Modell weniger "denkt", aber bessere Ergebnisse in Benchmarks liefert. Er replizierte diese Leistung dann mit einer neuen GGUF-Quantisierung und stellte fest, dass beide durchweg schneller zu Antworten kommen als UD Q8 K XL.

AI models Qwen3.6 Performance optimization quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·4/21/2026

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

Dieser Inhalt stellt PrismML und ein neues KI-Konzept namens Ternary Bonsai vor, das behauptet, Top-Intelligenz mit bemerkenswerter Effizienz bei 1.58 Bit zu erreichen. Es behandelt wahrscheinlich Fortschritte in der KI-Modellkomprimierung oder optimierten Leistung.

AI models model efficiency machine learning quantization

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 18T

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Dieser Inhalt behandelt eine Herausforderung in llama.cpp bezüglich der asymmetrischen KV q8/q4 Cache-Quantisierung, die zur CPU-Verarbeitung unter CUDA führen kann. Eine GitHub-Diskussion zeigt, dass das Kompilieren mit einer spezifischen KV-Cache-Quantisierungskombination erhebliche Speichereinsparungen bei nur 1,3 % Präzisionsverlust ermöglicht.

llama.cpp GPU optimization quantization KV cache

RESEARCH↑ trendingReddit r/MachineLearning·4/11/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

HNSW Memory Optimization quantization Vector Indexing

NEWS↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen3.6-35B-A3B Uncensored Aggressive is out with K_P quants!

Die Qwen3.6-35B-A3B "Aggressive" Variante wurde veröffentlicht und bietet eine unzensierte Version des Originalmodells ohne Ablehnungen und keinerlei Funktionsverlust. Diese Veröffentlichung umfasst verschiedene K_P Quantisierungen sowie Bildunterstützung.

uncensored AI quantization Qwen model release

RESEARCH↑ trendingReddit r/LocalLLaMA·4/14/2026

Updated Qwen3.5-9B Quantization Comparison

Dieser Inhalt vergleicht verschiedene GGUF-Quantisierungen des Qwen3.5-9B-Modells mittels KL-Divergenz (KLD), um deren Treue zur BF16-Baseline zu bewerten. Ziel ist es, Nutzern eine datengestützte Grundlage für die Auswahl der treuesten quantisierten Datei zu bieten, wobei niedrigere KLD-Werte auf einen geringeren Informationsverlust hindeuten.

Qwen3.5-9B KLD quantization GGUF

Updated Qwen3.5-9B Quantization Comparison