← heapsort-ai

Model Compression

8 items

NEWS↑ trendingReddit r/LocalLLaMA·17/4/2026

Ternary Bonsai: Top intelligence at 1.58 bits

Prism ML ha anunciado Ternary Bonsai, una nueva familia de modelos de lenguaje de 1.58 bits diseñada para equilibrar estrictas restricciones de memoria con alta precisión. Estos modelos, disponibles en tamaños de 8B, 4B y 1.7B, logran una huella de memoria 9 veces menor que los modelos de 16 bits, superando a la mayoría de sus pares.

Ternary Bonsai: Top intelligence at 1.58 bits
50
ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

How to Distill from 100B+ to <4B Models

Este contenido trata sobre el proceso de destilación de modelos de IA, centrándose en cómo reducir modelos gigantes de más de 100 mil millones de parámetros a versiones significativamente más pequeñas, con menos de 4 mil millones. El objetivo es mejorar la eficiencia y accesibilidad de los modelos complejos.

How to Distill from 100B+ to <4B Models
42
RESEARCHarXiv CS.CL·17/4/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Este trabajo propone un marco unificado guiado por sensado comprimido para la ejecución dinámica de LLM, abordando los altos recuentos de parámetros, el uso de memoria y la latencia de decodificación. Integra la compresión de modelos y de prompts utilizando operadores de medición aleatorios y recuperación dispersa para estimar conjuntos de soporte adaptados a la tarea y al token.

31
RESEARCHarXiv CS.CL·hace 28d

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD es un marco de destilación de capacidades guiado por refuerzo para Grandes Modelos de Lenguaje (LLMs), diseñado para comprimir modelos manteniendo las habilidades necesarias para tareas específicas. La propuesta considera la interdependencia de las capacidades para optimizar el presupuesto de tokens y evitar la degradación de habilidades útiles.

28
RESEARCHarXiv CS.LG·hace 23d

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Este estudio investiga el impacto de la cuantificación post-entrenamiento en la calidad de los Grandes Modelos de Lenguaje (LLMs), revelando que la compresión puede llevar a la aparición de sesgos. La cuantificación de 3 bits hizo que entre el 6% y el 21% de los elementos previamente imparciales desarrollaran nuevos comportamientos estereotipados en modelos como Qwen2.5-7B, Mistral-7B y Phi-3.5-mini.

27