← heapsort-ai

compression

9 items

NEWS↑ trendingReddit r/LocalLLaMA·18/04/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare a lancé Unweight, un système de compression sans perte qui réduit la taille des LLM de 15 à 22 % sans sacrifier la précision de sortie. L'outil, qui économise environ 3 Go de VRAM sur les GPU Nvidia H100 pour Llama-3.1-8B, a été mis en open-source sur GitHub avec des plans pour étendre la compression.

44
RESEARCH↑ trendingReddit r/MachineLearning·03/05/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Ce projet introduit la bibliothèque Python "torch-nvenc-compress", qui utilise le silicium NVENC/NVDEC du GPU pour compresser les activations et le cache KV des LLM, visant à surmonter les goulots d'étranglement de bande passante PCIe dans les configurations multi-GPU. Il mesure un chevauchement de chemin parallèle à 67% du maximum théorique, améliorant la communication entre les GPU grand public.

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]
42
RESEARCHarXiv CS.CL·il y a 4j

Generic Triple-Latent Compression with Gated Associative Retrieval

Cette recherche introduit des modèles de séquence génériques à triple latence, qui utilisent un état de jeton courant et une mémoire de paires compressée pour capturer des interactions de jetons d'ordre supérieur. Ces modèles démontrent une amélioration par rapport à une base de référence Transformer sur des benchmarks de modèles de langage, bien qu'une extension de récupération améliore le rappel mais soit plus lente.

30
RESEARCHarXiv CS.LG·06/04/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

27