← heapsort-ai

PCIe

1 items

RESEARCH↑ trendingReddit r/MachineLearning·3/5/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Este proyecto presenta la biblioteca Python "torch-nvenc-compress", que utiliza el hardware NVENC/NVDEC de la GPU para comprimir activaciones y caché KV de LLMs, con el objetivo de superar los cuellos de botella de ancho de banda PCIe en configuraciones multi-GPU. Mide una superposición de ruta paralela del 67% del máximo teórico, mejorando la comunicación entre GPUs de consumo.

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]
42