← heapsort-ai

PCIe

1 items

RESEARCH↑ trendingReddit r/MachineLearning·03/05/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Este projeto apresenta a biblioteca Python "torch-nvenc-compress", que utiliza o hardware NVENC/NVDEC das GPUs para comprimir ativações e cache KV de LLMs, visando superar gargalos de largura de banda PCIe em configurações multi-GPU. Ele mede uma sobreposição de caminho paralelo de 67% do máximo teórico, melhorando a comunicação entre GPUs de consumo.

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]
42