compression

9 items

NEWS↑ trendingReddit r/LocalLLaMA·18/4/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare lanzó Unweight, un sistema de compresión sin pérdidas que reduce el tamaño de los LLM entre un 15 y un 22% sin sacrificar la precisión de la salida. La herramienta, que ahorra aproximadamente 3 GB de VRAM en GPUs Nvidia H100 para Llama-3.1-8B, ha sido de código abierto en GitHub con planes de extender la compresión.

Open Source Optimization GPU compression

RESEARCH↑ trendingReddit r/MachineLearning·3/5/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Este proyecto presenta la biblioteca Python "torch-nvenc-compress", que utiliza el hardware NVENC/NVDEC de la GPU para comprimir activaciones y caché KV de LLMs, con el objetivo de superar los cuellos de botella de ancho de banda PCIe en configuraciones multi-GPU. Mide una superposición de ruta paralela del 67% del máximo teórico, mejorando la comunicación entre GPUs de consumo.

NVENC GPU PCIe compression

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

ARTICLE3Blue1Brown (YouTube)·hace 2d

Reinventing Entropy | Compression & Intelligence Part 1

Este artículo explora la relación entre entropía, compresión e inteligencia, siendo la primera parte de una serie. Busca redefinir la comprensión de estos conceptos fundamentales.

information theory intelligence AI compression

Reinventing Entropy | Compression & Intelligence Part 1

RESEARCHarXiv CS.CL·hace 4d

Generic Triple-Latent Compression with Gated Associative Retrieval

Esta investigación introduce modelos de secuencia genéricos triplemente latentes, que utilizan un estado de token en ejecución y memoria de par comprimida para capturar interacciones de tokens de orden superior. Estos modelos muestran mejoras sobre una línea base de Transformer en benchmarks de modelos de lenguaje, aunque una extensión de recuperación mejora la recuperación pero es más lenta.

language models latent models sequence models associative retrieval

RESEARCHDEV.to AI·26/4/2026

FIDT as a Domain-Specific Generator: A Honest Reframing of Fujimoto Infinite Dot Theory (Paper 140)

Este artículo reformula la Teoría de los Puntos Infinitos de Fujimoto (FIDT) de un códec universal a un generador de dominio específico para teorías D-FUMT₈. Desarrollado con la colaboración de Claude Opus 4.7, este nuevo enfoque logra una reconstrucción exacta en bytes y alta compresión.

information theory research large language models compression

RESEARCHarXiv CS.LG·hace 20d

Robust Basis Spline Decoupling for the Compression of Transformer Models

Este trabajo presenta un marco de desacoplamiento basado en B-splines para la compresión de modelos Transformer. Generaliza los enfoques basados en tensores existentes, abordando sus limitaciones en inestabilidad numérica o expresividad limitada.

neural networks machine learning AI compression

RESEARCHarXiv CS.LG·6/4/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

lossy compression LLMs arithmetic coding compute frontier

NEWSML Mastery·30/4/2026

Effective KV Compression with TurboQuant

Google ha lanzado recientemente TurboQuant, una novedosa suite algorítmica y biblioteca para aplicar cuantificación y compresión avanzadas a grandes modelos de lenguaje (LLMs) y motores de búsqueda vectorial. Esta herramienta es un elemento indispensable de los sistemas RAG.

LLMs quantization vector search RAG systems

Effective KV Compression with TurboQuant

ARTICLEDEV.to AI·hace 24d

High-Quality, Low-Delay Music Coding in the Opus Codec

Este contenido trata sobre el códec Opus, resaltando sus capacidades para ofrecer codificación de música de alta calidad con baja latencia. Se centra en los aspectos técnicos que permiten una compresión de audio eficiente y de alto rendimiento.

low-latency audio coding compression digital audio