← heapsort-ai

quantization

57 items

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Este contenido evalúa el rendimiento del modelo MoE cuantificado Qwen 3.6 35B A3B Q4_K_M en CPU, utilizando benchmarks como HumanEval, HellaSwag y BFCL. Alcanzó 22 tokens/seg, mostrando un fuerte rendimiento en razonamiento de sentido común (74%) y resultados sólidos para un modelo MoE activo de 3B.

Qwen 3.6 35B A3B Q4_K_M quant evaluation
42
RESEARCH↑ trendingReddit r/LocalLLaMA·6/5/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

El contenido compara la calidad de diferentes cuantizaciones del modelo Qwen 3.6 27B mediante una prueba de ajedrez para identificar la mejor opción para configuraciones con 16 GB de VRAM. La prueba evalúa la capacidad de los modelos para seguir el estado del tablero y generar imágenes SVG correctas.

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)
42
ARTICLE↑ trendingReddit r/LocalLLaMA·hace 28d

I got a real transformer language model running locally on a stock Game Boy Color!

Se ejecutó localmente un modelo de lenguaje transformador (TinyStories-260K) en una Game Boy Color estándar, utilizando pesos INT8 y aritmética de punto fijo. Esta impresionante hazaña técnica implicó una ROM personalizada y tokenización en el dispositivo, aunque el rendimiento es extremadamente lento y la salida es incomprensible.

I got a real transformer language model running locally on a stock Game Boy Color!
42
RESEARCH↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen3.6 GGUF Benchmarks

Este contenido presenta los benchmarks de rendimiento KLD para los quants GGUF de Qwen3.6-35B-A3B de Unsloth, destacando su eficiencia en relación al espacio en disco. También aclara que las frecuentes actualizaciones de GGUF suelen deberse a correcciones de errores externos o mejoras oficiales, y no a errores internos de Unsloth.

Qwen3.6 GGUF Benchmarks
41
RESEARCHarXiv CS.LG·hace 1d

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Los Modelos de Lenguaje Grandes de Difusión (dLLMs) experimentan un "retraso de estabilidad" debido a la confirmación irreversible de tokens, un problema agravado por errores de Cuantificación Post-Entrenamiento (PTQ). FAIR-Calib propone un marco PTQ de dos etapas que utiliza un prior de posición y calibración por capa para proteger estados de frontera frágiles, mejorando la cuantificación para dLLMs.

36
ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Major drop in intelligence across most major models.

El autor informa una caída importante en la inteligencia de varios modelos de IA como ChatGPT, Claude, Gemini y Grok, a mediados de abril de 2026. Observó que los modelos ignoran instrucciones y producen resultados superficiales, planteando la hipótesis de una reducción de la cuantificación o una política deliberada, y sugiriendo el uso de GPUs alquiladas o IA local.

35
ARTICLEDEV.to AI·19/4/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

El contenido destaca la optimización de inferencia como la tendencia crítica que dará forma a la infraestructura de LLM para 2026, enfatizando su importancia sobre el tamaño del modelo. Explica que, si bien el entrenamiento es un costo único, la inferencia es un gasto continuo que impacta directamente los márgenes y la experiencia del usuario, haciendo que la eficiencia sea primordial.

30
RESEARCHarXiv CS.LG·hace 29d

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Este artículo propone RateQuant, un método para la cuantificación óptima de caché KV de precisión mixta en grandes modelos de lenguaje para abordar los cuellos de botella de memoria. Aborda el desafío de la desajuste del modelo de distorsión, donde aplicar el modelo de distorsión de un cuantificador a otro degrada el rendimiento en comparación con la cuantificación uniforme.

29
RESEARCHarXiv CS.LG·6/5/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ es un pipeline de compresión de dos etapas para la caché KV en cabezas de atención de transformadores. Utiliza la contracción óptima de valores singulares y la cuantificación escalar por vector, basada en la teoría de matrices aleatorias, para lograr una compresión casi sin pérdidas y mejorar la reconstrucción.

29
RESEARCHarXiv CS.LG·8/4/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

28
DOCDEV.to AI·hace 10d

How to Deploy Qwen2.5 72B with vLLM + AWQ Quantization on a $24/Month DigitalOcean GPU Droplet: Multilingual Reasoning at 1/110th Claude Opus Cost

Esta guía detalla cómo implementar Qwen2.5 72B con vLLM y cuantificación AWQ en un Droplet de GPU de DigitalOcean por solo $24 al mes. Muestra una reducción de costos significativa en comparación con las API de IA comerciales como Claude Opus, ofreciendo razonamiento multilingüe de nivel empresarial a una fracción del precio.

28
RESEARCHarXiv CS.CL·hace 19d

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Esta investigación examina cómo varios niveles de cuantificación de bits bajos afectan el rendimiento de LLaMA-3.1 en el análisis cualitativo, señalando que los modelos de bajo bit a menudo producen alucinaciones. Propone un método de verificación de prompt multipaso consciente de la cuantificación para mejorar la precisión reduciendo sistemáticamente las alucinaciones y filtrando contenido poco fiable.

28
ARTICLEDEV.to AI·hace 15d

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Este artículo compara la cuantificación de LLMs de 16, 8 y 4 bits, revelando que la de 4 bits, aunque más rápida, compromete significativamente la calidad en tareas de razonamiento y matemáticas. La verdadera compensación es entre la tarea y la precisión requerida, siendo 8 bits óptimo para tareas que exigen precisión, minimizando la pérdida de calidad con solo una ligera reducción de velocidad. La elección de la cuantificación debe basarse en la tarea y las consideraciones de hardware, no solo en el hardware.

27
RESEARCHarXiv CS.LG·hace 7d

BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization

BitsMoE propone un marco de asignación de bits guiado por energía espectral para la cuantificación de modelos de lenguaje grandes de Mixture-of-Experts (MoE). Aborda el despliegue intensivo en memoria descomponiendo las capas MoE y utilizando factores espectrales específicos del experto para una cuantificación de precisión mixta y detallada.

27