← heapsort-ai

quantization

57 items

ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

Gemma 4 31B — 4bit is all you need

Este contenido compara el rendimiento de las versiones cuantificadas de 4 bits y 8 bits de Gemma 4 31B en un MacBook Pro M5 Max, encontrando sorprendentemente que la versión de 4 bits obtuvo una puntuación más alta (91.3% vs 88.4%). También señala un problema donde Gemma 4 26B-A4B entró en un bucle de regresión, truncando las respuestas al alcanzar el límite máximo de tokens de 16,384.

Gemma 4 31B — 4bit is all you need
67
ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

El usuario optimiza un modelo Transformer para tamaño y velocidad de inferencia, pero ha alcanzado una meseta tras FP16 y ONNX, sin ganancias significativas con poda u optimizaciones de grafo. Busca orientación sobre siguientes pasos como factorización de bajo rango, cuantificación agresiva o destilación de conocimiento para mejoras reales.

50
NEWS↑ trendingReddit r/MachineLearning·21/4/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Se ha lanzado en código abierto Chaperone-Thinking-LQ-1.0, un modelo DeepSeek-R1-32B de 4 bits cuantizado con GPTQ y ajustado con QLoRA. Este modelo alcanza un 84% de precisión en MedQA, cerca de GPT-4o, con un tamaño de solo ~20GB y es 1.6 veces más rápido que el modelo base.

48
RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un usuario descubrió y solucionó un problema significativo de deriva de tensor en las capas `ssm_conv1d` de los modelos Qwen3.6-35B GGUF cuantificados, proponiendo la métrica de Wasserstein como superior a Kullback Leibler para detectar inestabilidad numérica. La solución, que se dirige específicamente a las capas de transición de estado recurrente responsables de la memoria de contexto largo, ya está disponible en un modelo compartido.

44
DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Este contenido detalla la implementación de la Predicción Multitoken (MTP) con GGUF cuantificados para Qwen3-27B, utilizando cuantificaciones UD XL de Unsloth con capas MTP injertadas en Q8_0, lo que resulta en un aumento de rendimiento de 2,5x. El autor comparte archivos GGUF injertados, la fuente de la capa MTP y un script de conversión, junto con instrucciones de construcción para una versión personalizada de llama.cpp que incorpora soporte de decodificación especulativa de una PR no fusionada.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·13/4/2026

Experiment: Olmo 3 7B Instruct Q1_0

El autor intentó cuantizar OLMo-3 7B Instruct a un formato de 1-bit mediante destilación consciente de cuantificación, entrenando el modelo durante 12 horas en 4x B200 GPUs. Aunque el modelo resultante puede producir inglés básico, es generalmente inutilizable debido a bucles de repetición y falta de seguimiento de contexto, atribuido a la interrupción temprana del entrenamiento y una elección de conjunto de datos inadecuada.

Experiment: Olmo 3 7B Instruct Q1_0
43
RESEARCH↑ trendingReddit r/LocalLLaMA·hace 26d

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Un estudio exhaustivo sobre TurboQuant compara sus variantes (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) con FP8 para la cuantificación de caché KV. Se recomienda FP8 como predeterminado, ofreciendo el doble de capacidad con una pérdida de precisión insignificante y un buen rendimiento. Las variantes de TurboQuant muestran ventajas limitadas o una degradación significativa en la precisión y el rendimiento, siendo 4bit-nc una opción para escenarios con restricciones de memoria.

A First Comprehensive Study of TurboQuant: Accuracy and Performance
43
ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

Una investigación sobre MiniMax-M2.7 GGUF encontró que los NaNs en la perplejidad afectan al 21-38% de los GGUF en Hugging Face. El problema se atribuyó a desbordamientos en llama.cpp, específicamente en `blk.61.ffn_down_exps` para cuantificaciones Q5_K y Q4_K, y el equipo corrigió los suyos.

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks
42
RESEARCH↑ trendingReddit r/LocalLLaMA·7/5/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant es una técnica novedosa que emplea cuantización de rotación por pares para mejorar significativamente la eficiencia de la inferencia de Modelos de Lenguaje Grandes (LLM). Este método se dirige específicamente a los LLM de razonamiento, permitiendo una implementación más económica y rápida al reducir los requisitos computacionales y de memoria.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
ARTICLE↑ trendingReddit r/LocalLLaMA·hace 25d

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

El autor investiga por qué una receta específica de cuantificación Qwen3.6 27B INT8 Autoround supera a otras, observando que el modelo "piensa" menos pero proporciona mejores resultados en los benchmarks. Luego replicó este rendimiento con una nueva cuantificación GGUF, señalando que ambas consistentemente obtienen respuestas más rápido que UD Q8 K XL.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·hace 18d

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Este contenido aborda un desafío en llama.cpp sobre la cuantificación asimétrica del caché KV q8/q4, que puede llevar al procesamiento en CPU con CUDA. Una discusión en GitHub sugiere que compilar con una combinación específica de cuantificación de caché KV, incluso sin FA_ALL_QUANTS, ofrece un ahorro sustancial de memoria con solo una pérdida de precisión del 1,3%.

42
RESEARCH↑ trendingReddit r/MachineLearning·11/4/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·14/4/2026

Updated Qwen3.5-9B Quantization Comparison

Este contenido compara diferentes cuantificaciones GGUF del modelo Qwen3.5-9B, utilizando la Divergencia KL (KLD) para evaluar la fidelidad respecto a la línea base BF16. El objetivo es proporcionar a los usuarios una base de datos para elegir el archivo cuantificado más fiel, con puntuaciones KLD más bajas que indican una menor pérdida de información.

Updated Qwen3.5-9B Quantization Comparison
42