compression

9 items

NEWS↑ trendingReddit r/LocalLLaMA·18/04/2026

Cloudflare open-sources lossless LLM compression tool

A Cloudflare lançou Unweight, uma ferramenta de compressão lossless que reduz o tamanho de LLMs em 15-22% sem sacrificar a precisão da saída. A ferramenta, que economiza cerca de 3 GB de VRAM em GPUs Nvidia H100 para o Llama-3.1-8B, foi de código aberto no GitHub com planos de expandir a compressão.

Open Source Optimization GPU compression

RESEARCH↑ trendingReddit r/MachineLearning·03/05/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Este projeto apresenta a biblioteca Python "torch-nvenc-compress", que utiliza o hardware NVENC/NVDEC das GPUs para comprimir ativações e cache KV de LLMs, visando superar gargalos de largura de banda PCIe em configurações multi-GPU. Ele mede uma sobreposição de caminho paralelo de 67% do máximo teórico, melhorando a comunicação entre GPUs de consumo.

NVENC GPU PCIe compression

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

ARTICLE3Blue1Brown (YouTube)·2d atrás

Reinventing Entropy | Compression & Intelligence Part 1

Este artigo explora a relação entre entropia, compressão e inteligência, sendo a primeira parte de uma série. O objetivo é redefinir o entendimento desses conceitos fundamentais.

information theory intelligence AI compression

Reinventing Entropy | Compression & Intelligence Part 1

RESEARCHarXiv CS.CL·4d atrás

Generic Triple-Latent Compression with Gated Associative Retrieval

Esta pesquisa introduz modelos de sequência genéricos triplo-latentes que utilizam um estado de token contínuo e memória de par comprimida para capturar interações de tokens de ordem superior. Esses modelos demonstram melhorias em benchmarks de modelos de linguagem, embora uma extensão de recuperação melhore o recall, mas seja mais lenta.

language models latent models sequence models associative retrieval

RESEARCHDEV.to AI·26/04/2026

FIDT as a Domain-Specific Generator: A Honest Reframing of Fujimoto Infinite Dot Theory (Paper 140)

Este artigo reformula a Teoria do Ponto Infinito de Fujimoto (FIDT) de um codec universal para um gerador específico de domínio para teorias D-FUMT₈. Desenvolvido com a colaboração de Claude Opus 4.7, este reframing permite a reconstrução exata de bytes e alta compressão.

information theory research large language models compression

RESEARCHarXiv CS.LG·20d atrás

Robust Basis Spline Decoupling for the Compression of Transformer Models

Este trabalho apresenta um framework de desacoplamento baseado em B-splines para a compressão de modelos Transformer. Ele generaliza abordagens existentes que usam polinômios ou funções lineares por partes, oferecendo maior expressividade e estabilidade numérica.

neural networks machine learning AI compression

RESEARCHarXiv CS.LG·06/04/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

lossy compression LLMs arithmetic coding compute frontier

NEWSML Mastery·30/04/2026

Effective KV Compression with TurboQuant

A Google lançou recentemente o TurboQuant, uma nova suíte algorítmica e biblioteca para aplicar quantização e compressão avançadas a grandes modelos de linguagem (LLMs) e motores de busca vetorial. Esta ferramenta é um elemento indispensável dos sistemas RAG.

LLMs quantization vector search RAG systems

Effective KV Compression with TurboQuant

ARTICLEDEV.to AI·24d atrás

High-Quality, Low-Delay Music Coding in the Opus Codec

Este conteúdo aborda o codec Opus, destacando suas capacidades em fornecer codificação de música de alta qualidade com baixa latência. Ele foca nos aspectos técnicos que permitem uma compressão de áudio eficiente e de alto desempenho.

low-latency audio coding compression digital audio