← heapsort-ai

quantization

57 items

ARTICLEDEV.to AI·hace 29d

When I started running models locally, I thought quantization meant squeezing more into RAM. Turns o

El artículo desaconseja el uso predeterminado de Q4_K_M para la inferencia local de LLM, enfatizando que el rendimiento óptimo proviene de probar niveles de cuantificación adaptados a flujos de trabajo específicos. Sugiere que la cuantificación agresiva como Q3_K_S puede reducir significativamente la latencia con una pérdida de calidad imperceptible para muchas tareas, aunque la longitud del contexto presenta una compensación.

27
RESEARCHarXiv CS.LG·24/4/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse es un nuevo sistema de inferencia diseñado para plataformas solo de CPU, que permite la ejecución de modelos de lenguaje grandes sin multiplicaciones. Utiliza pesos ternarios ({-1, 0, +1}) para reemplazar las multiplicaciones de punto flotante con adiciones y sustracciones condicionales, reduciendo significativamente los cuellos de botella de ancho de banda de memoria y ofreciendo una compresión de peso de hasta 16x.

27
RESEARCHarXiv CS.LG·hace 28d

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Esta investigación analiza tres esquemas de cuantificación de caché KV (KV, KQV, QKQV) y su impacto en la varianza del producto interno, especialmente cómo QJL en K la infla, amplificado por softmax. Los hallazgos empíricos resaltan el rendimiento superior de KQV con un presupuesto de n=4, una asimetría K-V incondicional donde QKQV es consistentemente peor que KQV en la divergencia KL, y cruces dependientes del presupuesto para la reconstrucción geométrica de K.

27
RESEARCHarXiv CS.LG·7/5/2026

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Esta investigación introduce MP-ISMoE, un marco de Mixture-of-Experts Lateral Interactivo de Precisión Mixta, para mejorar el aprendizaje por transferencia eficiente en parámetros al mitigar la sobrecarga de memoria. Emplea un esquema de Cuantificación Iterativa Perturbada por Ruido Gaussiano (GNP-IQ) para la cuantificación de pesos de menor bit, liberando memoria para mejorar la capacidad de aprendizaje y el rendimiento de la red lateral.

27
RESEARCHarXiv CS.LG·7/5/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Esta investigación introduce EdgeRazor, un marco ligero diseñado para desplegar Grandes Modelos de Lenguaje en dispositivos con recursos limitados. Aprovecha la destilación consciente de la cuantificación de precisión mixta para convertir modelos de precisión completa a formatos de bits más bajos, superando las limitaciones de los métodos de cuantificación previos.

27
RESEARCHarXiv CS.LG·hace 20d

Theory-optimal Quantization Based on Flatness

Esta investigación modela la relación entre el error de cuantificación y los valores atípicos en los Grandes Modelos de Lenguaje (LLM) e introduce una nueva métrica, Flatness, para cuantificar la distribución de valores atípicos. Con base en esto, deriva una solución teóricamente óptima y propone la Cuantificación Diagonal Bidireccional (BDQ) para la cuantificación post-entrenamiento.

27
RESEARCHarXiv CS.LG·hace 27d

QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization

QuIDE propone una métrica unificada, el Índice de Inteligencia I, para evaluar la eficiencia de redes neuronales cuantificadas, consolidando la relación compresión-precisión-latencia. Los experimentos demuestran que la cuantificación óptima (4 u 8 bits) depende de la tarea, ofreciendo un protocolo de evaluación y una función de aptitud para la búsqueda de precisión mixta.

27
RESEARCHarXiv CS.LG·hace 22d

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Este estudio investiga el impacto de la cuantificación post-entrenamiento en la calidad de los Grandes Modelos de Lenguaje (LLMs), revelando que la compresión puede llevar a la aparición de sesgos. La cuantificación de 3 bits hizo que entre el 6% y el 21% de los elementos previamente imparciales desarrollaran nuevos comportamientos estereotipados en modelos como Qwen2.5-7B, Mistral-7B y Phi-3.5-mini.

27
DOCDEV.to AI·hace 15d

How to Deploy Llama 3.2 90B with vLLM + Quantization on a $20/Month DigitalOcean GPU Droplet: Enterprise Reasoning at 1/140th Claude Opus Cost

Este contenido ofrece una guía sobre cómo implementar el modelo Llama 3.2 90B utilizando vLLM y cuantificación en un droplet de GPU de DigitalOcean por solo $20 al mes. Esta configuración proporciona capacidades de razonamiento de nivel empresarial a un costo 25 veces menor que Claude Opus, logrando ahorros significativos para la infraestructura de IA.

27