GPU

46 items

NEWS↑ trendingReddit r/LocalLLaMA·18/04/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare a lancé Unweight, un système de compression sans perte qui réduit la taille des LLM de 15 à 22 % sans sacrifier la précision de sortie. L'outil, qui économise environ 3 Go de VRAM sur les GPU Nvidia H100 pour Llama-3.1-8B, a été mis en open-source sur GitHub avec des plans pour étendre la compression.

Open Source Optimization GPU compression

NEWS↑ trendingReddit r/MachineLearning·22/04/2026

GPU Compass – open-source, real-time GPU pricing across 20+ clouds [P]

GPU Compass, un outil open-source, a été lancé pour fournir des prix GPU en temps réel à travers plus de 20 fournisseurs de cloud. Il catalogue 50 modèles de GPU et plus de 2 000 offres, incluant les prix à la demande, spot et les tendances historiques, rendant les données brutes accessibles à tous.

Open Source cloud computing GPU AI infrastructure

ARTICLE↑ trendingReddit r/LocalLLaMA·11/04/2026

Gemma 4 31B vs Qwen 3.5 27B: Which is best for long context worklows? My THOUGHTS...

L'article compare les modèles Gemma 4 31B et Qwen 3.5 27B, les jugeant les meilleurs pour une utilisation locale sur des cartes graphiques de 24 Go. L'auteur loue la capacité de Qwen 3.5 27B à gérer le raisonnement et l'analyse de contextes longs sans hallucinations, marquant une évolution significative.

GPU Gemma 4 31B Long Context Qwen 3.5 27B

RESEARCH↑ trendingReddit r/LocalLLaMA·13/04/2026

MiniMax-M2.7 NVFP4 on 2x RTX PRO 6000 Blackwell — bench numbers

Ce contenu présente les résultats de benchmark pour le LLM MiniMax-M2.7, utilisant la quantification NVFP4 sur une configuration à deux GPU NVIDIA RTX PRO 6000 Blackwell. Il détaille le débit de décodage à différents niveaux de concurrence et les performances de préremplissage pour diverses tailles de contexte.

GPU Benchmarking NVIDIA Blackwell MiniMax M2.7

MiniMax-M2.7 NVFP4 on 2x RTX PRO 6000 Blackwell — bench numbers

ARTICLE↑ trendingReddit r/LocalLLaMA·06/05/2026

Analysis of the 100 most popular hardware setups on Hugging Face

Ce contenu analyse les 100 configurations matérielles les plus populaires utilisées sur la plateforme Hugging Face. Il offre des aperçus sur les préférences et les tendances d'infrastructure pour le développement de l'IA.

Hugging Face cloud computing GPU AI hardware

Analysis of the 100 most popular hardware setups on Hugging Face

DOC↑ trendingReddit r/LocalLLaMA·11/04/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Ce document détaille l'exécution optimisée du modèle Qwen3.5-397B-A17B-MXFP4 à l'aide de vLLM sur des GPU RDNA4, tels que 8xR9700. Il fournit un Dockerfile avec des correctifs Triton et des instructions pour télécharger le modèle et lancer le conteneur d'inférence.

Docker GPU MXFP4 Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·01/05/2026

nvidia/Gemma-4-26B-A4B-NVFP4

Le contenu confirme les performances du modèle Gemma-4-26B-A4B-NVFP4 sur une GPU NVIDIA 5090, détaillant l'utilisation de 18.8GB de VRAM et une capacité de contexte de 50k. Il présente également les scores de référence pour la version NVFP4 comparés à la pleine précision sur diverses métriques comme GPQA, AIME et MMLU Pro.

AI models GPU Benchmarking NVIDIA

ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Anyone have an S3-compatible store that actually saturates H100s without the AWS egress tax? [R]

Um usuário está treinando modelos de IA em Lambda Labs com um dataset de 40TB no AWS S3, enfrentando altas taxas de egress. Ele busca uma alternativa de armazenamento sem taxas de egress e alta velocidade, ou uma camada de cache NVMe, após problemas de latência com Cloudflare R2 levarem à subutilização da GPU.

cloud storage GPU AI training HPC

CASE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

L'auteur a implémenté avec succès les modèles Qwen 3.6 (27B et 35B) localement pour le codage, offrant des performances comparables à celles de Claude Code. Cette configuration locale a réduit drastiquement les coûts, passant d'une estimation de 142 $ en appels API à moins de 4 $ d'électricité sur 8 heures.

GPU Claude local inference Cost Savings

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

Le titre décrit une optimisation impressionnante pour le modèle Qwen3.6–27B, atteignant 85 TPS et 125K de contexte avec des capacités de vision sur une seule RTX 3090. Cela représente une prouesse technique significative pour le déploiement efficace des LLM.

Optimization multimodal AI GPU large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

RESEARCH↑ trendingReddit r/MachineLearning·03/05/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Ce projet introduit la bibliothèque Python "torch-nvenc-compress", qui utilise le silicium NVENC/NVDEC du GPU pour compresser les activations et le cache KV des LLM, visant à surmonter les goulots d'étranglement de bande passante PCIe dans les configurations multi-GPU. Il mesure un chevauchement de chemin parallèle à 67% du maximum théorique, améliorant la communication entre les GPU grand public.

NVENC GPU PCIe compression

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

ARTICLE↑ trendingReddit r/LocalLLaMA·07/05/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

L'utilisateur demande conseil pour choisir entre une RTX 5090 et un M5 Max 128GB pour le développement de logiciels agentiques avec Qwen3.6 27B en local. La RTX 5090 offre une vitesse 3 fois supérieure, tandis que le M5 Max offre 4 fois plus de mémoire, posant un compromis entre la génération rapide de code et une plus grande capacité de contexte.

LLMs GPU hardware performance

ARTICLE↑ trendingReddit r/LocalLLaMA·24/04/2026

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

Un utilisateur a sollicité des conseils sur l'achat de matériel d'IA haut de gamme pour exécuter de grands modèles comme Gemma4s et Qwen3.6s, comparant une GPU Blackwell/RTX Pro 6000 96G et un Mac Studio M3 Ultra 256G. Ils ont finalement opté pour l'option Blackwell, citant sa capacité supérieure de traitement des tokens et une offre avantageuse.

AI applications GPU AI hardware large language models

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

ARTICLEDEV.to AI·23/04/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

L'auteur a lancé un nouvel outil bêta, le « Local AI VRAM Calculator & GPU Planner », pour aider à déterminer les exigences en GPU et VRAM pour l'exécution locale des LLM. Cet outil vise à rendre visibles les compromis matériels pour différentes charges de travail et niveaux de quantification avant d'investir dans des composants.

LLMs GPU VRAM AI tools

NEWS↑ trendingReddit r/LocalLLaMA·12/04/2026

Weekend project with Intel B70s

Un utilisateur assemble un système haut de gamme avec des GPU Intel Arc B70 et une carte mère Gigabyte B850 AI Top. L'objectif est de tester le modèle Gemma 4 dans des applications RAG juridiques, en utilisant un agent Hermes.

Legal AI GPU RAG AI Model

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 26j

The RTX 5000 PRO (48GB) arrived and it is better than I expected.

L'auteur, un novice en assemblage de PC, a acheté une carte graphique RTX 5000 Pro pour le traitement de LLMs locaux, dépensant un total de 5600 $. Malgré des difficultés initiales avec l'assemblage et la configuration logicielle (Linux, vLLM), les performances du GPU ont dépassé ses attentes.

local LLM PC Build GPU AI

ARTICLE↑ trendingReddit r/MachineLearning·17/04/2026

Which computer should I buy: Mac or custom-built 5090? [D]

L'utilisateur demande conseil pour choisir entre un Mac M5 MAX avec MLX et un PC personnalisé avec une RTX 5090 pour ses projets d'apprentissage automatique. Son travail implique principalement le réglage fin de grands modèles pré-entraînés et l'entraînement à partir de zéro, souvent avec des données image/vidéo et, parfois, des LLM, faisant de la VRAM un facteur critique.

deep learning GPU machine learning hardware

NEWS↑ trendingReddit r/LocalLLaMA·09/04/2026

backend-agnostic tensor parallelism has been merged into llama.cpp

A funcionalidade de paralelismo de tensor backend-agnóstico foi integrada ao llama.cpp, permitindo que modelos de IA rodem muito mais rápido em sistemas com múltiplas GPUs. Isso significa que a aceleração de desempenho não exige mais CUDA.

LLMs Otimização GPU IA

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

China modded GPU (eg. 4090 48gb) --> I'm gonna figure it out. IS THERE NO ONE ELSE CURIOUS??

L'auteur manifeste un vif intérêt à comprendre les GPU chinois modifiés, tels qu'une 4090 48GB, soulignant le manque d'informations dans le monde anglophone. Il recherche les expériences des utilisateurs concernant leurs performances, leur fiabilité, les particularités logicielles, les benchmarks et les prix, notamment pour les applications d'IA/LLM.

modding China tech GPU AI hardware

ARTICLE↑ trendingReddit r/MachineLearning·27/04/2026

Anyone using Tensordock GPU instances and having problems with failing VM’s [D]

Un utilisateur signale des problèmes critiques avec les instances GPU de Tensordock, où sa VM dédiée à une recherche précieuse n'a pas pu démarrer pendant deux jours malgré les paiements continus. Il exprime une frustration extrême face à l'absence totale de support et à la non-fiabilité du service, craignant une perte de données avec une compensation incertaine.

cloud computing GPU AI infrastructure service-issues