quantization

57 items

ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

Gemma 4 31B — 4bit is all you need

Este contenido compara el rendimiento de las versiones cuantificadas de 4 bits y 8 bits de Gemma 4 31B en un MacBook Pro M5 Max, encontrando sorprendentemente que la versión de 4 bits obtuvo una puntuación más alta (91.3% vs 88.4%). También señala un problema donde Gemma 4 26B-A4B entró en un bucle de regresión, truncando las respuestas al alcanzar el límite máximo de tokens de 16,384.

4bit 8bit Gemma quantization

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

El usuario optimiza un modelo Transformer para tamaño y velocidad de inferencia, pero ha alcanzado una meseta tras FP16 y ONNX, sin ganancias significativas con poda u optimizaciones de grafo. Busca orientación sobre siguientes pasos como factorización de bajo rango, cuantificación agresiva o destilación de conocimiento para mejoras reales.

Pruning inference Transformer quantization

NEWS↑ trendingReddit r/MachineLearning·21/4/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Se ha lanzado en código abierto Chaperone-Thinking-LQ-1.0, un modelo DeepSeek-R1-32B de 4 bits cuantizado con GPTQ y ajustado con QLoRA. Este modelo alcanza un 84% de precisión en MedQA, cerca de GPT-4o, con un tamaño de solo ~20GB y es 1.6 veces más rápido que el modelo base.

Open Source Benchmarking quantization Fine-tuning

NEWS↑ trendingReddit r/MachineLearning·22/4/2026

INT3 compression+fused metal kernels [R]

Un investigador y fundador solitario desarrolló compresión de modelos INT3 y una caché KV de 2 bits con kernels Metal personalizados para Mac (M-series). Qwen 7B está disponible en vista previa, y se planean optimizaciones adicionales y soporte para GPU.

Hardware Acceleration LLMs quantization model optimization

ARTICLE↑ trendingReddit r/MachineLearning·12/4/2026

ArcFace embeddings quantized to 16-bit pgvector HALFVEC ? [D]

El texto discute la optimización de embeddings ArcFace de 512 dimensiones en PostgreSQL, que exceden el límite TOAST y aumentan la E/S. Se propone cuantificarlos a 16 bits (HALFVEC) para reducir el almacenamiento y la E/S a la mitad, cuestionando el impacto en la precisión.

quantization pgvector embeddings PostgreSQL

RESEARCH↑ trendingReddit r/LocalLLaMA·22/4/2026

Personal Eval follow-up: Gemma4 26B MoE (Q8) vs Qwen3.5 27B Dense vs Gemma4 31B Dense Compared

Este seguimiento compara los modelos Gemma4 26B MoE (Q8), Qwen3.5 27B Dense y Gemma4 31B Dense, incluyendo resultados anteriores de Qwen 3.6 35B y Gemma 4 26B (Q4). El análisis evalúa su rendimiento, destacando el impacto de la cuantificación de 8 bits y la eficacia de diferentes arquitecturas de modelo.

Benchmarking Gemma model comparison quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un usuario descubrió y solucionó un problema significativo de deriva de tensor en las capas `ssm_conv1d` de los modelos Qwen3.6-35B GGUF cuantificados, proponiendo la métrica de Wasserstein como superior a Kullback Leibler para detectar inestabilidad numérica. La solución, que se dirige específicamente a las capas de transición de estado recurrente responsables de la memoria de contexto largo, ya está disponible en un modelo compartido.

LLMs quantization GGUF model optimization

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Este contenido detalla la implementación de la Predicción Multitoken (MTP) con GGUF cuantificados para Qwen3-27B, utilizando cuantificaciones UD XL de Unsloth con capas MTP injertadas en Q8_0, lo que resulta en un aumento de rendimiento de 2,5x. El autor comparte archivos GGUF injertados, la fuente de la capa MTP y un script de conversión, junto con instrucciones de construcción para una versión personalizada de llama.cpp que incorpora soporte de decodificación especulativa de una PR no fusionada.

Multi-Token Prediction llama.cpp quantization large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·13/4/2026

Experiment: Olmo 3 7B Instruct Q1_0

El autor intentó cuantizar OLMo-3 7B Instruct a un formato de 1-bit mediante destilación consciente de cuantificación, entrenando el modelo durante 12 horas en 4x B200 GPUs. Aunque el modelo resultante puede producir inglés básico, es generalmente inutilizable debido a bucles de repetición y falta de seguimiento de contexto, atribuido a la interrupción temprana del entrenamiento y una elección de conjunto de datos inadecuada.

OLMo-3 distillation quantization 1-bit model

RESEARCH↑ trendingReddit r/LocalLLaMA·hace 26d

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Un estudio exhaustivo sobre TurboQuant compara sus variantes (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) con FP8 para la cuantificación de caché KV. Se recomienda FP8 como predeterminado, ofreciendo el doble de capacidad con una pérdida de precisión insignificante y un buen rendimiento. Las variantes de TurboQuant muestran ventajas limitadas o una degradación significativa en la precisión y el rendimiento, siendo 4bit-nc una opción para escenarios con restricciones de memoria.

AI models TurboQuant Performance optimization FP8

A First Comprehensive Study of TurboQuant: Accuracy and Performance

DOC↑ trendingReddit r/MachineLearning·22/4/2026

Need Info on quality benchmarks to run on DeepSeek V3.2 different quant levels [D]

Un usuario busca consejo sobre qué benchmarks de calidad ejecutar para medir la degradación del rendimiento al aplicar cuantificación en tiempo de ejecución al modelo de lenguaje grande DeepSeek V3.2. El objetivo es comparar la pérdida de calidad con la versión no cuantificada.

Benchmarking quantization model optimization AI evaluation

NEWS↑ trendingReddit r/LocalLLaMA·10/4/2026

Update on Gemma 4 having MTP: Reverse engineering effort

O autor extraiu os pesos do modelo Gemma 4 em arquivos TFLite e agora busca ajuda da comunidade, especialmente de especialistas em C++, para convertê-los em um módulo Pytorch. O processo envolve desafios como a desquantização INT8 e a exploração de ferramentas como o Google AI Edge Model explorer.

Gemma 4 machine learning quantization model conversion

ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

Una investigación sobre MiniMax-M2.7 GGUF encontró que los NaNs en la perplejidad afectan al 21-38% de los GGUF en Hugging Face. El problema se atribuyó a desbordamientos en llama.cpp, específicamente en `blk.61.ffn_down_exps` para cuantificaciones Q5_K y Q4_K, y el equipo corrigió los suyos.

Perplexity NaNs quantization GGUF

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

RESEARCH↑ trendingReddit r/LocalLLaMA·7/5/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant es una técnica novedosa que emplea cuantización de rotación por pares para mejorar significativamente la eficiencia de la inferencia de Modelos de Lenguaje Grandes (LLM). Este método se dirige específicamente a los LLM de razonamiento, permitiendo una implementación más económica y rápida al reducir los requisitos computacionales y de memoria.

Optimization LLMs efficiency quantization

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 25d

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

El autor investiga por qué una receta específica de cuantificación Qwen3.6 27B INT8 Autoround supera a otras, observando que el modelo "piensa" menos pero proporciona mejores resultados en los benchmarks. Luego replicó este rendimiento con una nueva cuantificación GGUF, señalando que ambas consistentemente obtienen respuestas más rápido que UD Q8 K XL.

AI models Qwen3.6 Performance optimization quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·21/4/2026

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

Este contenido presenta PrismML y un nuevo concepto de IA llamado Ternary Bonsai, que afirma alcanzar la máxima inteligencia con una eficiencia notable de 1.58 bits. Probablemente discute avances en la compresión de modelos de IA o rendimiento optimizado.

AI models model efficiency machine learning quantization

PrismML — Introducing Ternary Bonsai: Top Intelligence at 1.58 Bits

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 18d

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Este contenido aborda un desafío en llama.cpp sobre la cuantificación asimétrica del caché KV q8/q4, que puede llevar al procesamiento en CPU con CUDA. Una discusión en GitHub sugiere que compilar con una combinación específica de cuantificación de caché KV, incluso sin FA_ALL_QUANTS, ofrece un ahorro sustancial de memoria con solo una pérdida de precisión del 1,3%.

llama.cpp GPU optimization quantization KV cache

RESEARCH↑ trendingReddit r/MachineLearning·11/4/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

HNSW Memory Optimization quantization Vector Indexing

NEWS↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen3.6-35B-A3B Uncensored Aggressive is out with K_P quants!

Se ha lanzado la variante "Aggressive" del Qwen3.6-35B-A3B, una versión sin censura del modelo original, sin rechazos y con cero pérdida de capacidad. Esta versión incluye varias cuantificaciones K_P y soporte de visión.

uncensored AI quantization Qwen model release

RESEARCH↑ trendingReddit r/LocalLLaMA·14/4/2026

Updated Qwen3.5-9B Quantization Comparison

Este contenido compara diferentes cuantificaciones GGUF del modelo Qwen3.5-9B, utilizando la Divergencia KL (KLD) para evaluar la fidelidad respecto a la línea base BF16. El objetivo es proporcionar a los usuarios una base de datos para elegir el archivo cuantificado más fiel, con puntuaciones KLD más bajas que indican una menor pérdida de información.

Qwen3.5-9B KLD quantization GGUF

Updated Qwen3.5-9B Quantization Comparison