← heapsort-ai

compression

9 items

NEWS↑ trendingReddit r/LocalLLaMA·4/18/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare hat Unweight veröffentlicht, ein verlustfreies Kompressionssystem, das die Größe von LLMs um 15-22% reduziert, ohne die Ausgabegenauigkeit zu beeinträchtigen. Das Tool, das auf Nvidia H100 GPUs für Llama-3.1-8B etwa 3 GB VRAM einspart, wurde auf GitHub quelloffen zur Verfügung gestellt, mit Plänen zur Erweiterung der Kompression.

44
RESEARCH↑ trendingReddit r/MachineLearning·5/3/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Dieses Projekt stellt die Python-Bibliothek "torch-nvenc-compress" vor, die die NVENC/NVDEC-Hardware der GPU nutzt, um LLM-Aktivierungen und KV-Cache zu komprimieren, um PCIe-Bandbreitenengpässe in Multi-GPU-Setups zu überwinden. Es misst eine Parallelpfadüberlappung von 67% des theoretischen Maximums, wodurch die Kommunikation zwischen Consumer-GPUs verbessert wird.

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]
42
RESEARCHarXiv CS.CL·vor 4T

Generic Triple-Latent Compression with Gated Associative Retrieval

Diese Forschung stellt generische Triple-Latent-Sequenzmodelle vor, die einen laufenden Token-Zustand und einen komprimierten Paar-Speicherweg nutzen, um Token-Interaktionen höherer Ordnung zu erfassen. Diese Modelle zeigen Verbesserungen gegenüber einer Transformer-Baseline auf Sprachmodell-Benchmarks, obwohl eine Abruf-Erweiterung den assoziativen Abruf verbessert, aber langsamer ist.

30
RESEARCHarXiv CS.LG·4/6/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

27