heapsort
RESEARCH↑ trending42

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Reddit r/MachineLearning·3. Mai 2026
torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Dieses Projekt stellt die Python-Bibliothek "torch-nvenc-compress" vor, die die NVENC/NVDEC-Hardware der GPU nutzt, um LLM-Aktivierungen und KV-Cache zu komprimieren, um PCIe-Bandbreitenengpässe in Multi-GPU-Setups zu überwinden. Es misst eine Parallelpfadüberlappung von 67% des theoretischen Maximums, wodurch die Kommunikation zwischen Consumer-GPUs verbessert wird.

Original lesen