← heapsort-ai

compression

9 items

NEWS↑ trendingReddit r/LocalLLaMA·18/4/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare lanzó Unweight, un sistema de compresión sin pérdidas que reduce el tamaño de los LLM entre un 15 y un 22% sin sacrificar la precisión de la salida. La herramienta, que ahorra aproximadamente 3 GB de VRAM en GPUs Nvidia H100 para Llama-3.1-8B, ha sido de código abierto en GitHub con planes de extender la compresión.

44
RESEARCH↑ trendingReddit r/MachineLearning·3/5/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Este proyecto presenta la biblioteca Python "torch-nvenc-compress", que utiliza el hardware NVENC/NVDEC de la GPU para comprimir activaciones y caché KV de LLMs, con el objetivo de superar los cuellos de botella de ancho de banda PCIe en configuraciones multi-GPU. Mide una superposición de ruta paralela del 67% del máximo teórico, mejorando la comunicación entre GPUs de consumo.

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]
42
RESEARCHarXiv CS.CL·hace 4d

Generic Triple-Latent Compression with Gated Associative Retrieval

Esta investigación introduce modelos de secuencia genéricos triplemente latentes, que utilizan un estado de token en ejecución y memoria de par comprimida para capturar interacciones de tokens de orden superior. Estos modelos muestran mejoras sobre una línea base de Transformer en benchmarks de modelos de lenguaje, aunque una extensión de recuperación mejora la recuperación pero es más lenta.

30
RESEARCHarXiv CS.LG·6/4/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

27