compression

9 items

NEWS↑ trendingReddit r/LocalLLaMA·4/18/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare hat Unweight veröffentlicht, ein verlustfreies Kompressionssystem, das die Größe von LLMs um 15-22% reduziert, ohne die Ausgabegenauigkeit zu beeinträchtigen. Das Tool, das auf Nvidia H100 GPUs für Llama-3.1-8B etwa 3 GB VRAM einspart, wurde auf GitHub quelloffen zur Verfügung gestellt, mit Plänen zur Erweiterung der Kompression.

Open Source Optimization GPU compression

RESEARCH↑ trendingReddit r/MachineLearning·5/3/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Dieses Projekt stellt die Python-Bibliothek "torch-nvenc-compress" vor, die die NVENC/NVDEC-Hardware der GPU nutzt, um LLM-Aktivierungen und KV-Cache zu komprimieren, um PCIe-Bandbreitenengpässe in Multi-GPU-Setups zu überwinden. Es misst eine Parallelpfadüberlappung von 67% des theoretischen Maximums, wodurch die Kommunikation zwischen Consumer-GPUs verbessert wird.

NVENC GPU PCIe compression

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

ARTICLE3Blue1Brown (YouTube)·vor 2T

Reinventing Entropy | Compression & Intelligence Part 1

Dieser Artikel untersucht die Beziehung zwischen Entropie, Kompression und Intelligenz und ist der erste Teil einer Serie. Ziel ist es, das Verständnis dieser grundlegenden Konzepte neu zu definieren.

information theory intelligence AI compression

Reinventing Entropy | Compression & Intelligence Part 1

RESEARCHarXiv CS.CL·vor 4T

Generic Triple-Latent Compression with Gated Associative Retrieval

Diese Forschung stellt generische Triple-Latent-Sequenzmodelle vor, die einen laufenden Token-Zustand und einen komprimierten Paar-Speicherweg nutzen, um Token-Interaktionen höherer Ordnung zu erfassen. Diese Modelle zeigen Verbesserungen gegenüber einer Transformer-Baseline auf Sprachmodell-Benchmarks, obwohl eine Abruf-Erweiterung den assoziativen Abruf verbessert, aber langsamer ist.

language models latent models sequence models associative retrieval

RESEARCHDEV.to AI·4/26/2026

FIDT as a Domain-Specific Generator: A Honest Reframing of Fujimoto Infinite Dot Theory (Paper 140)

Dieser Artikel formuliert die Fujimoto Infinite Dot Theory (FIDT) von einem universellen Codec zu einem domänenspezifischen Generator für D-FUMT₈-Theorien um. In Zusammenarbeit mit Claude Opus 4.7 erreicht dieser Ansatz eine bytgenaue Rekonstruktion und hohe Kompression.

information theory research large language models compression

RESEARCHarXiv CS.LG·vor 20T

Robust Basis Spline Decoupling for the Compression of Transformer Models

Diese Arbeit stellt ein B-Spline-basiertes Entkopplungs-Framework zur Komprimierung von Transformer-Modellen vor. Es verallgemeinert bestehende Tensor-basierte Ansätze und behebt deren Einschränkungen hinsichtlich numerischer Instabilität oder begrenzter Ausdruckskraft.

neural networks machine learning AI compression

RESEARCHarXiv CS.LG·4/6/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

lossy compression LLMs arithmetic coding compute frontier

NEWSML Mastery·4/30/2026

Effective KV Compression with TurboQuant

Google hat kürzlich TurboQuant auf den Markt gebracht, eine neuartige algorithmische Suite und Bibliothek zur Anwendung fortschrittlicher Quantisierung und Komprimierung auf große Sprachmodelle (LLMs) und Vektorsuchmaschinen. Dieses Tool ist ein unverzichtbares Element von RAG-Systemen.

LLMs quantization vector search RAG systems

Effective KV Compression with TurboQuant

ARTICLEDEV.to AI·vor 24T

High-Quality, Low-Delay Music Coding in the Opus Codec

Dieser Inhalt behandelt den Opus-Codec und hebt dessen Fähigkeiten hervor, hochwertige Musikcodierung mit geringer Verzögerung zu ermöglichen. Er konzentriert sich auf die technischen Aspekte, die eine effiziente und leistungsstarke Audiokompression ermöglichen.

low-latency audio coding compression digital audio