← heapsort-ai

PCIe

1 items

RESEARCH↑ trendingReddit r/MachineLearning·03/05/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Ce projet introduit la bibliothèque Python "torch-nvenc-compress", qui utilise le silicium NVENC/NVDEC du GPU pour compresser les activations et le cache KV des LLM, visant à surmonter les goulots d'étranglement de bande passante PCIe dans les configurations multi-GPU. Il mesure un chevauchement de chemin parallèle à 67% du maximum théorique, améliorant la communication entre les GPU grand public.

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]
42