Model Compression

8 items

NEWS↑ trendingReddit r/LocalLLaMA·4/17/2026

Ternary Bonsai: Top intelligence at 1.58 bits

Prism ML hat Ternary Bonsai angekündigt, eine neue Familie von 1,58-Bit-Sprachmodellen, die strenge Speichereinschränkungen mit hoher Genauigkeit ausbalancieren. Diese Modelle, erhältlich in Größen von 8B, 4B und 1,7B, erreichen einen 9-mal kleineren Speicherbedarf als 16-Bit-Modelle und übertreffen dabei die meisten ihrer Konkurrenten.

Model Compression language models Efficient AI

Ternary Bonsai: Top intelligence at 1.58 bits

ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

How to Distill from 100B+ to <4B Models

Dieser Inhalt beschreibt die Destillation von KI-Modellen, wobei der Fokus darauf liegt, wie massive Modelle mit über 100 Milliarden Parametern auf deutlich kleinere Versionen mit weniger als 4 Milliarden reduziert werden können. Ziel ist es, die Effizienz und Zugänglichkeit komplexer KI-Modelle zu verbessern.

Model Compression LLMs Model Distillation AI Efficiency

RESEARCHarXiv CS.CL·4/17/2026

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Diese Arbeit stellt ein vereinheitlichtes, auf Compressed Sensing basierendes Framework für die dynamische Ausführung von LLMs vor, das die massiven Parameterzahlen, den Speicherverbrauch und die DekodierungsLatenz großer Sprachmodelle adressiert. Es integriert Modell- und Prompt-Kompression, indem es zufällige Messoperatoren und Sparse Recovery nutzt, um aufgabenkonditionierte und token-adaptive Support-Sets zu schätzen.

Model Compression LLM optimization sparse recovery compressed sensing

RESEARCHarXiv CS.LG·vor 5T

LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection

LiftQuant ist ein neuartiges Framework zur kontinuierlichen Bitbreitensteuerung in großen Sprachmodellen, das die Einschränkungen der ganzzahlbasierten Quantisierung überwindet. Es verwendet einen "Lift-then-Project"-Mechanismus zur quasi-kontinuierlichen Bitbreitenanpassung für eine optimale Bereitstellung.

Model Compression neural networks LLMs deep learning

RESEARCHarXiv CS.CL·vor 27T

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD schlägt einen verstärkungsgesteuerten Ansatz zur Fähigkeitsdestillation für Große Sprachmodelle (LLMs) vor, um Modelle zu komprimieren und dabei wesentliche Fähigkeiten für nachgelagerte Aufgaben zu erhalten. Dieser Rahmen berücksichtigt explizit die Interdependenz von Fähigkeiten, um das Token-Budget zu optimieren und die Degradierung nützlicher Fähigkeiten zu verhindern.

Model Compression Knowledge Distillation LLMs reinforcement learning

ARTICLEDEV.to AI·4/18/2026

Traditional Quantization vs 1.58-Bit Ternary Models: A Practical Comparison

Der Artikel vergleicht traditionelle Quantisierungsmethoden (wie INT4/INT8) für lokale LLMs mit dem aufkommenden 1,58-Bit-Ternär-Quantisierungsansatz aus Projekten wie BitNet b1.58. Er betont die Einfachheit ternärer Modelle, die für Gewichte nur -1, 0 oder +1 verwenden, im Gegensatz zu Standard-Post-Training-Quantisierungstechniken.

Model Compression LLMs AI optimization quantization

RESEARCHarXiv CS.LG·vor 22T

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Diese Studie untersucht die Auswirkungen der Post-Training-Quantisierung auf die Qualität großer Sprachmodelle (LLMs) und zeigt, dass Komprimierung zur Entstehung von Voreingenommenheit führen kann. Eine 3-Bit-Quantisierung führte dazu, dass 6-21% der zuvor unvoreingenommenen Elemente neue stereotype Verhaltensweisen entwickelten, was ein klares Dosis-Wirkungs-Muster zeigte.

Model Compression LLMs quantization model quality

NEWSDEV.to AI·vor 15T

ModelBest Drops BitCPM-CANN: First 1.58-bit LLM on Ascend 910B

ModelBest hat BitCPM-CANN veröffentlicht, das erste 1,58-Bit ternäre LLM, das auf Ascend 910B NPUs trainiert wurde. Dieses Modell benötigt 6-mal weniger VRAM als BF16 bei minimalem Kapazitätsverlust und ist in vier Open-Source-Größen erhältlich.

Model Compression open-source AI AI hardware BitNet