← heapsort-ai

GPU

46 items

NEWS↑ trendingReddit r/LocalLLaMA·4/18/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare hat Unweight veröffentlicht, ein verlustfreies Kompressionssystem, das die Größe von LLMs um 15-22% reduziert, ohne die Ausgabegenauigkeit zu beeinträchtigen. Das Tool, das auf Nvidia H100 GPUs für Llama-3.1-8B etwa 3 GB VRAM einspart, wurde auf GitHub quelloffen zur Verfügung gestellt, mit Plänen zur Erweiterung der Kompression.

44
DOC↑ trendingReddit r/LocalLLaMA·4/11/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Dieses Dokument beschreibt die optimierte Ausführung des Qwen3.5-397B-A17B-MXFP4-Modells mittels vLLM auf RDNA4-GPUs, wie 8xR9700. Es enthält ein Dockerfile mit Triton-Patches und Anweisungen zum Herunterladen des Modells sowie zum Starten des Inferenz-Containers.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·5/1/2026

nvidia/Gemma-4-26B-A4B-NVFP4

Der Inhalt bestätigt die Leistung des Gemma-4-26B-A4B-NVFP4-Modells auf einer NVIDIA 5090 GPU, mit 18.8GB VRAM-Nutzung und 50k Kontextkapazität. Es werden auch Benchmark-Ergebnisse für die NVFP4-Version im Vergleich zur vollen Präzision in verschiedenen Metriken wie GPQA, AIME und MMLU Pro vorgestellt.

nvidia/Gemma-4-26B-A4B-NVFP4
42
RESEARCH↑ trendingReddit r/MachineLearning·5/3/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Dieses Projekt stellt die Python-Bibliothek "torch-nvenc-compress" vor, die die NVENC/NVDEC-Hardware der GPU nutzt, um LLM-Aktivierungen und KV-Cache zu komprimieren, um PCIe-Bandbreitenengpässe in Multi-GPU-Setups zu überwinden. Es misst eine Parallelpfadüberlappung von 67% des theoretischen Maximums, wodurch die Kommunikation zwischen Consumer-GPUs verbessert wird.

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]
42
ARTICLE↑ trendingReddit r/LocalLLaMA·5/7/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

Der Benutzer sucht Rat bei der Wahl zwischen einer RTX 5090 und einem M5 Max 128GB für die Entwicklung von Agenten-Software mit Qwen3.6 27B lokal. Die RTX 5090 bietet die dreifache Geschwindigkeit, während der M5 Max die vierfache Speicherkapazität bereitstellt, was einen Kompromiss zwischen schneller Codegenerierung und größerer Kontextkapazität darstellt.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·4/24/2026

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

Ein Benutzer suchte Rat beim Kauf von High-End-KI-Hardware zum Ausführen großer Modelle wie Gemma4s und Qwen3.6s, wobei er Optionen zwischen einer Blackwell/RTX Pro 6000 96G GPU und einem Mac Studio M3 Ultra 256G abwog. Sie entschieden sich letztendlich für die Blackwell-Option, da diese eine überlegene Token-Verarbeitung und ein günstiges Angebot bot.

Hard freakin' decision..Blackwell 96G or Mac Studio 256G
39
ARTICLEDEV.to AI·4/23/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

Der Autor hat ein neues Beta-Tool, den „Local AI VRAM Calculator & GPU Planner“, veröffentlicht, um die GPU- und VRAM-Anforderungen für das lokale Ausführen von LLMs zu bestimmen. Dieses Tool soll Hardware-Kompromisse für verschiedene Workloads und Quantisierungsstufen sichtbar machen, bevor man sich auf Komponenten festlegt.

39
NEWS↑ trendingReddit r/LocalLLaMA·4/12/2026

Weekend project with Intel B70s

Ein Benutzer baut ein High-End-System mit Intel Arc B70 GPUs und einem Gigabyte B850 AI Top Mainboard. Ziel ist es, das Gemma 4 Modell in juristischen RAG-Anwendungen unter Verwendung eines Hermes-Agenten zu testen.

38
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

China modded GPU (eg. 4090 48gb) --> I'm gonna figure it out. IS THERE NO ONE ELSE CURIOUS??

Der Autor zeigt großes Interesse daran, modifizierte chinesische GPUs, wie eine 4090 mit 48 GB, zu verstehen, und hebt den Mangel an Informationen in der englischsprachigen Welt hervor. Er sucht nach Benutzererfahrungen bezüglich Leistung, Zuverlässigkeit, Software-Eigenheiten, Benchmarks und Preisen, insbesondere für KI/LLM-Anwendungen.

33
ARTICLE↑ trendingReddit r/MachineLearning·4/27/2026

Anyone using Tensordock GPU instances and having problems with failing VM’s [D]

Ein Nutzer meldet kritische Probleme mit Tensordock GPU-Instanzen, bei denen seine VM für wertvolle Forschungsarbeiten trotz fortlaufender Zahlungen seit zwei Tagen nicht startet. Er äußert extreme Frustration über den völligen Mangel an Support und die Unzuverlässigkeit des Dienstes, da er Datenverlust mit unklarer Entschädigung befürchtet.

32