quantization

57 items

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen 3.6 35B A3B Q4_K_M quant evaluation

Este contenido evalúa el rendimiento del modelo MoE cuantificado Qwen 3.6 35B A3B Q4_K_M en CPU, utilizando benchmarks como HumanEval, HellaSwag y BFCL. Alcanzó 22 tokens/seg, mostrando un fuerte rendimiento en razonamiento de sentido común (74%) y resultados sólidos para un modelo MoE activo de 3B.

AI model evaluation Benchmarking quantization MoE

Qwen 3.6 35B A3B Q4_K_M quant evaluation

RESEARCH↑ trendingReddit r/LocalLLaMA·6/5/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

El contenido compara la calidad de diferentes cuantizaciones del modelo Qwen 3.6 27B mediante una prueba de ajedrez para identificar la mejor opción para configuraciones con 16 GB de VRAM. La prueba evalúa la capacidad de los modelos para seguir el estado del tablero y generar imágenes SVG correctas.

VRAM Benchmarking quantization model quality

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 28d

I got a real transformer language model running locally on a stock Game Boy Color!

Se ejecutó localmente un modelo de lenguaje transformador (TinyStories-260K) en una Game Boy Color estándar, utilizando pesos INT8 y aritmética de punto fijo. Esta impresionante hazaña técnica implicó una ROM personalizada y tokenización en el dispositivo, aunque el rendimiento es extremadamente lento y la salida es incomprensible.

Hardware Acceleration Edge AI quantization AI inference

I got a real transformer language model running locally on a stock Game Boy Color!

ARTICLE↑ trendingReddit r/LocalLLaMA·24/4/2026

Takeaways & discussion about the DeepSeek V4 architecture

Este artículo analiza las novedades arquitectónicas de DeepSeek V4, destacando su sistema de atención híbrida (CSA + HCA) y las Manifold-Constrained Hyper-Connections. También aborda el entrenamiento FP4 QAT a escala de frontera, diferenciándolo de modelos anteriores.

DeepSeek deep learning attention mechanisms quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen3.6 GGUF Benchmarks

Este contenido presenta los benchmarks de rendimiento KLD para los quants GGUF de Qwen3.6-35B-A3B de Unsloth, destacando su eficiencia en relación al espacio en disco. También aclara que las frecuentes actualizaciones de GGUF suelen deberse a correcciones de errores externos o mejoras oficiales, y no a errores internos de Unsloth.

LLMs quantization Benchmarks

CASE↑ trendingReddit r/MachineLearning·27/4/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Un usuario notó que la cuantificación INT8 en su modelo de aprendizaje profundo resultó en una mejor precisión de inferencia que FP16, lo cual fue inesperado. Busca explicaciones para el rendimiento superior de INT8 sobre FP16.

inference ONNX deep learning quantization

NEWS↑ trendingReddit r/LocalLLaMA·27/4/2026

AMD Hipfire - a new inference engine optimized for AMD GPU's

El contenido presenta Hipfire, un nuevo motor de inferencia optimizado para todas las GPU de AMD, que utiliza un método de cuantificación mq4 especial. Los benchmarks iniciales de Localmaxxing muestran mejoras significativas de velocidad, aunque el creador aclara que no está oficialmente conectado a AMD.

Benchmarking GPU optimization AMD quantization

NEWS↑ trendingReddit r/LocalLLaMA·15/4/2026

What is the current status with Turbo Quant?

Este contenido pregunta por el estado actual de la tecnología "Turbo Quant", mencionando su reciente popularidad hace unas dos semanas y las pull requests en llama.cpp. El usuario busca una actualización sobre su desarrollo y adopción.

Turbo Quant llama.cpp quantization AI development

RESEARCHarXiv CS.LG·hace 1d

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Los Modelos de Lenguaje Grandes de Difusión (dLLMs) experimentan un "retraso de estabilidad" debido a la confirmación irreversible de tokens, un problema agravado por errores de Cuantificación Post-Entrenamiento (PTQ). FAIR-Calib propone un marco PTQ de dos etapas que utiliza un prior de posición y calibración por capa para proteger estados de frontera frágiles, mejorando la cuantificación para dLLMs.

Diffusion Models post-training quantization quantization AI calibration

ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Major drop in intelligence across most major models.

El autor informa una caída importante en la inteligencia de varios modelos de IA como ChatGPT, Claude, Gemini y Grok, a mediados de abril de 2026. Observó que los modelos ignoran instrucciones y producen resultados superficiales, planteando la hipótesis de una reducción de la cuantificación o una política deliberada, y sugiriendo el uso de GPUs alquiladas o IA local.

quantization Local AI model degradation AI intelligence drop

ARTICLEDEV.to AI·19/4/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

El contenido destaca la optimización de inferencia como la tendencia crítica que dará forma a la infraestructura de LLM para 2026, enfatizando su importancia sobre el tamaño del modelo. Explica que, si bien el entrenamiento es un costo único, la inferencia es un gasto continuo que impacta directamente los márgenes y la experiencia del usuario, haciendo que la eficiencia sea primordial.

quantization AI infrastructure Inference Optimization Cost Efficiency

RESEARCHarXiv CS.LG·hace 29d

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Este artículo propone RateQuant, un método para la cuantificación óptima de caché KV de precisión mixta en grandes modelos de lenguaje para abordar los cuellos de botella de memoria. Aborda el desafío de la desajuste del modelo de distorsión, donde aplicar el modelo de distorsión de un cuantificador a otro degrada el rendimiento en comparación con la cuantificación uniforme.

Memory Optimization quantization AI Research LLM

RESEARCHarXiv CS.LG·6/5/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ es un pipeline de compresión de dos etapas para la caché KV en cabezas de atención de transformadores. Utiliza la contracción óptima de valores singulares y la cuantificación escalar por vector, basada en la teoría de matrices aleatorias, para lograr una compresión casi sin pérdidas y mejorar la reconstrucción.

quantization Random matrix theory AI compression KV cache

RESEARCHarXiv CS.LG·hace 5d

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant presenta un nuevo marco para el control continuo del ancho de bits en Modelos de Lenguaje Grandes, abordando las limitaciones de la cuantificación basada en enteros. Utiliza un mecanismo de "elevar y proyectar" para un ajuste casi continuo del ancho de bits para una implementación óptima.

Model Compression neural networks LLMs deep learning

RESEARCHarXiv CS.LG·8/4/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

DOCDEV.to AI·hace 10d

How to Deploy Qwen2.5 72B with vLLM + AWQ Quantization on a $24/Month DigitalOcean GPU Droplet: Multilingual Reasoning at 1/110th Claude Opus Cost

Esta guía detalla cómo implementar Qwen2.5 72B con vLLM y cuantificación AWQ en un Droplet de GPU de DigitalOcean por solo $24 al mes. Muestra una reducción de costos significativa en comparación con las API de IA comerciales como Claude Opus, ofreciendo razonamiento multilingüe de nivel empresarial a una fracción del precio.

deployment quantization Cost Optimization DigitalOcean

RESEARCHarXiv CS.CL·hace 19d

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Esta investigación examina cómo varios niveles de cuantificación de bits bajos afectan el rendimiento de LLaMA-3.1 en el análisis cualitativo, señalando que los modelos de bajo bit a menudo producen alucinaciones. Propone un método de verificación de prompt multipaso consciente de la cuantificación para mejorar la precisión reduciendo sistemáticamente las alucinaciones y filtrando contenido poco fiable.

model performance Qualitative Analysis LLMs hallucinations

RESEARCHDEV.to AI·hace 28d

Federated Learning With Quantized Global Model Updates

Este contenido explora la técnica de aprendizaje federado, centrándose específicamente en cómo las actualizaciones cuantificadas del modelo global pueden optimizar su eficiencia. Probablemente aborda métodos para reducir la sobrecarga de comunicación y los costos computacionales en entornos de aprendizaje automático distribuidos.

Model updates machine learning quantization federated learning

ARTICLEDEV.to AI·hace 15d

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Este artículo compara la cuantificación de LLMs de 16, 8 y 4 bits, revelando que la de 4 bits, aunque más rápida, compromete significativamente la calidad en tareas de razonamiento y matemáticas. La verdadera compensación es entre la tarea y la precisión requerida, siendo 8 bits óptimo para tareas que exigen precisión, minimizando la pérdida de calidad con solo una ligera reducción de velocidad. La elección de la cuantificación debe basarse en la tarea y las consideraciones de hardware, no solo en el hardware.

inference speed model performance quantization hardware

RESEARCHarXiv CS.LG·hace 7d

BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization

BitsMoE propone un marco de asignación de bits guiado por energía espectral para la cuantificación de modelos de lenguaje grandes de Mixture-of-Experts (MoE). Aborda el despliegue intensivo en memoria descomponiendo las capas MoE y utilizando factores espectrales específicos del experto para una cuantificación de precisión mixta y detallada.

MoE models deep learning AI optimization quantization