← heapsort-ai

compression

9 items

RESEARCH↑ trendingReddit r/MachineLearning·03/05/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Este projeto apresenta a biblioteca Python "torch-nvenc-compress", que utiliza o hardware NVENC/NVDEC das GPUs para comprimir ativações e cache KV de LLMs, visando superar gargalos de largura de banda PCIe em configurações multi-GPU. Ele mede uma sobreposição de caminho paralelo de 67% do máximo teórico, melhorando a comunicação entre GPUs de consumo.

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]
42
RESEARCHarXiv CS.CL·4d atrás

Generic Triple-Latent Compression with Gated Associative Retrieval

Esta pesquisa introduz modelos de sequência genéricos triplo-latentes que utilizam um estado de token contínuo e memória de par comprimida para capturar interações de tokens de ordem superior. Esses modelos demonstram melhorias em benchmarks de modelos de linguagem, embora uma extensão de recuperação melhore o recall, mas seja mais lenta.

30
RESEARCHarXiv CS.LG·06/04/2026

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Este estudo explora a compressão de texto gerado por LLMs em regimes com e sem perdas, apresentando métodos que melhoram a eficiência em 2x, como adaptadores LoRA e reescritas concisas. Introduz também a compressão interativa por Perguntas e Respostas (QA), um protocolo que transfere um bit por resposta para recuperar uma parte significativa da capacidade de modelos maiores.

27