GPU

46 items

NEWS↑ trendingReddit r/LocalLLaMA·4/18/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare hat Unweight veröffentlicht, ein verlustfreies Kompressionssystem, das die Größe von LLMs um 15-22% reduziert, ohne die Ausgabegenauigkeit zu beeinträchtigen. Das Tool, das auf Nvidia H100 GPUs für Llama-3.1-8B etwa 3 GB VRAM einspart, wurde auf GitHub quelloffen zur Verfügung gestellt, mit Plänen zur Erweiterung der Kompression.

Open Source Optimization GPU compression

NEWS↑ trendingReddit r/MachineLearning·4/22/2026

GPU Compass – open-source, real-time GPU pricing across 20+ clouds [P]

GPU Compass, ein Open-Source-Tool, wurde veröffentlicht und bietet Echtzeit-GPU-Preise von über 20 Cloud-Anbietern. Es katalogisiert 50 GPU-Modelle und über 2.000 Angebote, einschließlich On-Demand- und Spot-Preise sowie historische Trends, wodurch die Rohdaten für jeden zugänglich sind.

Open Source cloud computing GPU AI infrastructure

ARTICLE↑ trendingReddit r/LocalLLaMA·4/11/2026

Gemma 4 31B vs Qwen 3.5 27B: Which is best for long context worklows? My THOUGHTS...

Der Artikel vergleicht Gemma 4 31B und Qwen 3.5 27B als die besten Modelle für den lokalen Einsatz auf 24GB GPUs. Der Autor lobt Qwen 3.5 27B für seine überragende Denkfähigkeit und Long-Context-Analyse ohne Halluzinationen, was eine bedeutende Entwicklung darstellt.

GPU Gemma 4 31B Long Context Qwen 3.5 27B

RESEARCH↑ trendingReddit r/LocalLLaMA·4/13/2026

MiniMax-M2.7 NVFP4 on 2x RTX PRO 6000 Blackwell — bench numbers

Dieser Inhalt präsentiert Benchmark-Ergebnisse für das MiniMax-M2.7 LLM, das NVFP4-Quantisierung auf einem Dual-NVIDIA RTX PRO 6000 Blackwell GPU-Setup verwendet. Er detailliert den Dekodierdurchsatz bei verschiedenen Parallelitätsstufen und die Vorfüllleistung über unterschiedliche Kontextgrößen hinweg.

GPU Benchmarking NVIDIA Blackwell MiniMax M2.7

MiniMax-M2.7 NVFP4 on 2x RTX PRO 6000 Blackwell — bench numbers

ARTICLE↑ trendingReddit r/LocalLLaMA·5/6/2026

Analysis of the 100 most popular hardware setups on Hugging Face

Dieser Inhalt analysiert die 100 beliebtesten Hardware-Setups, die auf der Hugging Face-Plattform verwendet werden. Er bietet Einblicke in Infrastrukturpräferenzen und Trends für die KI-Entwicklung.

Hugging Face cloud computing GPU AI hardware

Analysis of the 100 most popular hardware setups on Hugging Face

DOC↑ trendingReddit r/LocalLLaMA·4/11/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Dieses Dokument beschreibt die optimierte Ausführung des Qwen3.5-397B-A17B-MXFP4-Modells mittels vLLM auf RDNA4-GPUs, wie 8xR9700. Es enthält ein Dockerfile mit Triton-Patches und Anweisungen zum Herunterladen des Modells sowie zum Starten des Inferenz-Containers.

Docker GPU MXFP4 Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·5/1/2026

nvidia/Gemma-4-26B-A4B-NVFP4

Der Inhalt bestätigt die Leistung des Gemma-4-26B-A4B-NVFP4-Modells auf einer NVIDIA 5090 GPU, mit 18.8GB VRAM-Nutzung und 50k Kontextkapazität. Es werden auch Benchmark-Ergebnisse für die NVFP4-Version im Vergleich zur vollen Präzision in verschiedenen Metriken wie GPQA, AIME und MMLU Pro vorgestellt.

AI models GPU Benchmarking NVIDIA

ARTICLE↑ trendingReddit r/MachineLearning·4/9/2026

Anyone have an S3-compatible store that actually saturates H100s without the AWS egress tax? [R]

Um usuário está treinando modelos de IA em Lambda Labs com um dataset de 40TB no AWS S3, enfrentando altas taxas de egress. Ele busca uma alternativa de armazenamento sem taxas de egress e alta velocidade, ou uma camada de cache NVMe, após problemas de latência com Cloudflare R2 levarem à subutilização da GPU.

cloud storage GPU AI training HPC

CASE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

Der Autor hat Qwen 3.6 Modelle (27B und 35B) erfolgreich lokal für das Codieren implementiert und dabei eine vergleichbare Leistung wie Claude Code erzielt. Diese lokale Einrichtung senkte die Kosten drastisch, von geschätzten 142 $ für API-Aufrufe auf weniger als 4 $ Stromkosten über 8 Stunden.

GPU Claude local inference Cost Savings

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

ARTICLE↑ trendingReddit r/LocalLLaMA·4/23/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

Der Titel beschreibt eine beeindruckende Optimierung für das Qwen3.6–27B-Modell, die 85 TPS und 125K Kontext mit Sehfähigkeiten auf einer einzelnen RTX 3090 erreicht. Dies ist eine bedeutende technische Leistung für den effizienten Einsatz von LLMs.

Optimization multimodal AI GPU large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

RESEARCH↑ trendingReddit r/MachineLearning·5/3/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Dieses Projekt stellt die Python-Bibliothek "torch-nvenc-compress" vor, die die NVENC/NVDEC-Hardware der GPU nutzt, um LLM-Aktivierungen und KV-Cache zu komprimieren, um PCIe-Bandbreitenengpässe in Multi-GPU-Setups zu überwinden. Es misst eine Parallelpfadüberlappung von 67% des theoretischen Maximums, wodurch die Kommunikation zwischen Consumer-GPUs verbessert wird.

NVENC GPU PCIe compression

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

ARTICLE↑ trendingReddit r/LocalLLaMA·5/7/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

Der Benutzer sucht Rat bei der Wahl zwischen einer RTX 5090 und einem M5 Max 128GB für die Entwicklung von Agenten-Software mit Qwen3.6 27B lokal. Die RTX 5090 bietet die dreifache Geschwindigkeit, während der M5 Max die vierfache Speicherkapazität bereitstellt, was einen Kompromiss zwischen schneller Codegenerierung und größerer Kontextkapazität darstellt.

LLMs GPU hardware performance

ARTICLE↑ trendingReddit r/LocalLLaMA·4/24/2026

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

Ein Benutzer suchte Rat beim Kauf von High-End-KI-Hardware zum Ausführen großer Modelle wie Gemma4s und Qwen3.6s, wobei er Optionen zwischen einer Blackwell/RTX Pro 6000 96G GPU und einem Mac Studio M3 Ultra 256G abwog. Sie entschieden sich letztendlich für die Blackwell-Option, da diese eine überlegene Token-Verarbeitung und ein günstiges Angebot bot.

AI applications GPU AI hardware large language models

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

ARTICLEDEV.to AI·4/23/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

Der Autor hat ein neues Beta-Tool, den „Local AI VRAM Calculator & GPU Planner“, veröffentlicht, um die GPU- und VRAM-Anforderungen für das lokale Ausführen von LLMs zu bestimmen. Dieses Tool soll Hardware-Kompromisse für verschiedene Workloads und Quantisierungsstufen sichtbar machen, bevor man sich auf Komponenten festlegt.

LLMs GPU VRAM AI tools

NEWS↑ trendingReddit r/LocalLLaMA·4/12/2026

Weekend project with Intel B70s

Ein Benutzer baut ein High-End-System mit Intel Arc B70 GPUs und einem Gigabyte B850 AI Top Mainboard. Ziel ist es, das Gemma 4 Modell in juristischen RAG-Anwendungen unter Verwendung eines Hermes-Agenten zu testen.

Legal AI GPU RAG AI model

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 26T

The RTX 5000 PRO (48GB) arrived and it is better than I expected.

Der Autor, ein PC-Bau-Neuling, kaufte eine RTX 5000 Pro GPU für die lokale LLM-Verarbeitung und gab insgesamt 5600 $ aus. Trotz anfänglicher Schwierigkeiten bei der Montage und Software-Einrichtung (Linux, vLLM) war die Leistung der GPU besser als erwartet.

local LLM PC Build GPU AI

ARTICLE↑ trendingReddit r/MachineLearning·4/17/2026

Which computer should I buy: Mac or custom-built 5090? [D]

Der Nutzer sucht Rat bei der Wahl zwischen einem Mac M5 MAX mit MLX und einem Custom-PC mit RTX 5090 für seine Machine-Learning-Projekte. Seine Arbeit umfasst vorwiegend das Fine-Tuning großer vortrainierter Modelle und Training von Grund auf, oft mit Bild-/Videodaten und manchmal LLMs, wodurch VRAM ein entscheidender Faktor ist.

deep learning GPU machine learning hardware

NEWS↑ trendingReddit r/LocalLLaMA·4/9/2026

backend-agnostic tensor parallelism has been merged into llama.cpp

A funcionalidade de paralelismo de tensor backend-agnóstico foi integrada ao llama.cpp, permitindo que modelos de IA rodem muito mais rápido em sistemas com múltiplas GPUs. Isso significa que a aceleração de desempenho não exige mais CUDA.

LLMs Otimização GPU IA

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

China modded GPU (eg. 4090 48gb) --> I'm gonna figure it out. IS THERE NO ONE ELSE CURIOUS??

Der Autor zeigt großes Interesse daran, modifizierte chinesische GPUs, wie eine 4090 mit 48 GB, zu verstehen, und hebt den Mangel an Informationen in der englischsprachigen Welt hervor. Er sucht nach Benutzererfahrungen bezüglich Leistung, Zuverlässigkeit, Software-Eigenheiten, Benchmarks und Preisen, insbesondere für KI/LLM-Anwendungen.

modding China tech GPU AI hardware

ARTICLE↑ trendingReddit r/MachineLearning·4/27/2026

Anyone using Tensordock GPU instances and having problems with failing VM’s [D]

Ein Nutzer meldet kritische Probleme mit Tensordock GPU-Instanzen, bei denen seine VM für wertvolle Forschungsarbeiten trotz fortlaufender Zahlungen seit zwei Tagen nicht startet. Er äußert extreme Frustration über den völligen Mangel an Support und die Unzuverlässigkeit des Dienstes, da er Datenverlust mit unklarer Entschädigung befürchtet.

cloud computing GPU AI infrastructure service-issues