← heapsort-ai

Model Compression

8 items

NEWS↑ trendingReddit r/LocalLLaMA·4/17/2026

Ternary Bonsai: Top intelligence at 1.58 bits

Prism ML hat Ternary Bonsai angekündigt, eine neue Familie von 1,58-Bit-Sprachmodellen, die strenge Speichereinschränkungen mit hoher Genauigkeit ausbalancieren. Diese Modelle, erhältlich in Größen von 8B, 4B und 1,7B, erreichen einen 9-mal kleineren Speicherbedarf als 16-Bit-Modelle und übertreffen dabei die meisten ihrer Konkurrenten.

Ternary Bonsai: Top intelligence at 1.58 bits
50
ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

How to Distill from 100B+ to <4B Models

Dieser Inhalt beschreibt die Destillation von KI-Modellen, wobei der Fokus darauf liegt, wie massive Modelle mit über 100 Milliarden Parametern auf deutlich kleinere Versionen mit weniger als 4 Milliarden reduziert werden können. Ziel ist es, die Effizienz und Zugänglichkeit komplexer KI-Modelle zu verbessern.

How to Distill from 100B+ to <4B Models
42
RESEARCHarXiv CS.CL·4/17/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Diese Arbeit stellt ein vereinheitlichtes, auf Compressed Sensing basierendes Framework für die dynamische Ausführung von LLMs vor, das die massiven Parameterzahlen, den Speicherverbrauch und die DekodierungsLatenz großer Sprachmodelle adressiert. Es integriert Modell- und Prompt-Kompression, indem es zufällige Messoperatoren und Sparse Recovery nutzt, um aufgabenkonditionierte und token-adaptive Support-Sets zu schätzen.

31
RESEARCHarXiv CS.CL·vor 27T

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD schlägt einen verstärkungsgesteuerten Ansatz zur Fähigkeitsdestillation für Große Sprachmodelle (LLMs) vor, um Modelle zu komprimieren und dabei wesentliche Fähigkeiten für nachgelagerte Aufgaben zu erhalten. Dieser Rahmen berücksichtigt explizit die Interdependenz von Fähigkeiten, um das Token-Budget zu optimieren und die Degradierung nützlicher Fähigkeiten zu verhindern.

28
RESEARCHarXiv CS.LG·vor 22T

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Diese Studie untersucht die Auswirkungen der Post-Training-Quantisierung auf die Qualität großer Sprachmodelle (LLMs) und zeigt, dass Komprimierung zur Entstehung von Voreingenommenheit führen kann. Eine 3-Bit-Quantisierung führte dazu, dass 6-21% der zuvor unvoreingenommenen Elemente neue stereotype Verhaltensweisen entwickelten, was ein klares Dosis-Wirkungs-Muster zeigte.

27