Model Compression

8 items

NEWS↑ trendingReddit r/LocalLLaMA·17/4/2026

Ternary Bonsai: Top intelligence at 1.58 bits

Prism ML ha anunciado Ternary Bonsai, una nueva familia de modelos de lenguaje de 1.58 bits diseñada para equilibrar estrictas restricciones de memoria con alta precisión. Estos modelos, disponibles en tamaños de 8B, 4B y 1.7B, logran una huella de memoria 9 veces menor que los modelos de 16 bits, superando a la mayoría de sus pares.

Model Compression language models Efficient AI

Ternary Bonsai: Top intelligence at 1.58 bits

ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

How to Distill from 100B+ to <4B Models

Este contenido trata sobre el proceso de destilación de modelos de IA, centrándose en cómo reducir modelos gigantes de más de 100 mil millones de parámetros a versiones significativamente más pequeñas, con menos de 4 mil millones. El objetivo es mejorar la eficiencia y accesibilidad de los modelos complejos.

Model Compression LLMs Model Distillation AI Efficiency

RESEARCHarXiv CS.CL·17/4/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Este trabajo propone un marco unificado guiado por sensado comprimido para la ejecución dinámica de LLM, abordando los altos recuentos de parámetros, el uso de memoria y la latencia de decodificación. Integra la compresión de modelos y de prompts utilizando operadores de medición aleatorios y recuperación dispersa para estimar conjuntos de soporte adaptados a la tarea y al token.

Model Compression LLM optimization sparse recovery compressed sensing

RESEARCHarXiv CS.LG·hace 6d

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant presenta un nuevo marco para el control continuo del ancho de bits en Modelos de Lenguaje Grandes, abordando las limitaciones de la cuantificación basada en enteros. Utiliza un mecanismo de "elevar y proyectar" para un ajuste casi continuo del ancho de bits para una implementación óptima.

Model Compression neural networks LLMs deep learning

RESEARCHarXiv CS.CL·hace 28d

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD es un marco de destilación de capacidades guiado por refuerzo para Grandes Modelos de Lenguaje (LLMs), diseñado para comprimir modelos manteniendo las habilidades necesarias para tareas específicas. La propuesta considera la interdependencia de las capacidades para optimizar el presupuesto de tokens y evitar la degradación de habilidades útiles.

Model Compression Knowledge Distillation LLMs reinforcement learning

ARTICLEDEV.to AI·18/4/2026

Traditional Quantization vs 1.58-Bit Ternary Models: A Practical Comparison

El artículo compara la cuantificación tradicional (INT4/INT8) para LLMs locales con el enfoque emergente de cuantificación ternaria de 1.58 bits, como en BitNet b1.58. Resalta la simplicidad de los modelos ternarios, que usan solo -1, 0 o +1 para los pesos, contrastándolos con las técnicas estándar de cuantificación post-entrenamiento.

Model Compression LLMs AI optimization quantization

RESEARCHarXiv CS.LG·hace 23d

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Este estudio investiga el impacto de la cuantificación post-entrenamiento en la calidad de los Grandes Modelos de Lenguaje (LLMs), revelando que la compresión puede llevar a la aparición de sesgos. La cuantificación de 3 bits hizo que entre el 6% y el 21% de los elementos previamente imparciales desarrollaran nuevos comportamientos estereotipados en modelos como Qwen2.5-7B, Mistral-7B y Phi-3.5-mini.

Model Compression LLMs quantization model quality

NEWSDEV.to AI·hace 16d

ModelBest Drops BitCPM-CANN: First 1.58-bit LLM on Ascend 910B

ModelBest lanzó BitCPM-CANN, el primer LLM ternario de 1,58 bits entrenado de principio a fin en NPUs Ascend 910B. El modelo usa 6 veces menos VRAM que BF16, manteniendo la mayor parte de su capacidad, y está disponible en cuatro tamaños de código abierto.

Model Compression open-source AI AI hardware BitNet