compression

9 items

NEWS↑ trendingReddit r/LocalLLaMA·18/04/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare a lancé Unweight, un système de compression sans perte qui réduit la taille des LLM de 15 à 22 % sans sacrifier la précision de sortie. L'outil, qui économise environ 3 Go de VRAM sur les GPU Nvidia H100 pour Llama-3.1-8B, a été mis en open-source sur GitHub avec des plans pour étendre la compression.

Open Source Optimization GPU compression

RESEARCH↑ trendingReddit r/MachineLearning·03/05/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Ce projet introduit la bibliothèque Python "torch-nvenc-compress", qui utilise le silicium NVENC/NVDEC du GPU pour compresser les activations et le cache KV des LLM, visant à surmonter les goulots d'étranglement de bande passante PCIe dans les configurations multi-GPU. Il mesure un chevauchement de chemin parallèle à 67% du maximum théorique, améliorant la communication entre les GPU grand public.

NVENC GPU PCIe compression

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

ARTICLE3Blue1Brown (YouTube)·il y a 2j

Reinventing Entropy | Compression & Intelligence Part 1

Cet article explore la relation entre l'entropie, la compression et l'intelligence, constituant la première partie d'une série. Il vise à redéfinir la compréhension de ces concepts fondamentaux.

information theory intelligence AI compression

Reinventing Entropy | Compression & Intelligence Part 1

RESEARCHarXiv CS.CL·il y a 4j

Generic Triple-Latent Compression with Gated Associative Retrieval

Cette recherche introduit des modèles de séquence génériques à triple latence, qui utilisent un état de jeton courant et une mémoire de paires compressée pour capturer des interactions de jetons d'ordre supérieur. Ces modèles démontrent une amélioration par rapport à une base de référence Transformer sur des benchmarks de modèles de langage, bien qu'une extension de récupération améliore le rappel mais soit plus lente.

language models latent models sequence models associative retrieval

RESEARCHDEV.to AI·26/04/2026

FIDT as a Domain-Specific Generator: A Honest Reframing of Fujimoto Infinite Dot Theory (Paper 140)

Cet article recadre la Théorie des Points Infinis de Fujimoto (FIDT) d'un codec universel vers un générateur de domaine spécifique pour les théories D-FUMT₈. Cette refonte, élaborée avec la collaboration de Claude Opus 4.7, permet une reconstruction exacte au byte près et une compression élevée.

information theory research large language models compression

RESEARCHarXiv CS.LG·il y a 20j

Robust Basis Spline Decoupling for the Compression of Transformer Models

Ce travail introduit un cadre de découplage basé sur les splines B pour la compression des modèles Transformer. Il généralise les méthodes existantes basées sur des tenseurs, remédiant à leurs limitations en matière d'instabilité numérique ou d'expressivité.

neural networks machine learning AI compression

RESEARCHarXiv CS.LG·06/04/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

lossy compression LLMs arithmetic coding compute frontier

NEWSML Mastery·30/04/2026

Effective KV Compression with TurboQuant

Google a récemment lancé TurboQuant, une nouvelle suite algorithmique et bibliothèque pour appliquer une quantification et une compression avancées aux grands modèles de langage (LLM) et aux moteurs de recherche vectorielle. Cet outil est un élément indispensable des systèmes RAG.

LLMs quantization vector search RAG systems

Effective KV Compression with TurboQuant

ARTICLEDEV.to AI·il y a 24j

High-Quality, Low-Delay Music Coding in the Opus Codec

Ce contenu aborde le codec Opus, soulignant ses capacités à fournir un codage musical de haute qualité avec une faible latence. Il se concentre sur les aspects techniques qui permettent une compression audio efficace et performante.

low-latency audio coding compression digital audio