← heapsort-ai

GPU

46 items

NEWS↑ trendingReddit r/LocalLLaMA·18/04/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare a lancé Unweight, un système de compression sans perte qui réduit la taille des LLM de 15 à 22 % sans sacrifier la précision de sortie. L'outil, qui économise environ 3 Go de VRAM sur les GPU Nvidia H100 pour Llama-3.1-8B, a été mis en open-source sur GitHub avec des plans pour étendre la compression.

44
DOC↑ trendingReddit r/LocalLLaMA·11/04/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Ce document détaille l'exécution optimisée du modèle Qwen3.5-397B-A17B-MXFP4 à l'aide de vLLM sur des GPU RDNA4, tels que 8xR9700. Il fournit un Dockerfile avec des correctifs Triton et des instructions pour télécharger le modèle et lancer le conteneur d'inférence.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·01/05/2026

nvidia/Gemma-4-26B-A4B-NVFP4

Le contenu confirme les performances du modèle Gemma-4-26B-A4B-NVFP4 sur une GPU NVIDIA 5090, détaillant l'utilisation de 18.8GB de VRAM et une capacité de contexte de 50k. Il présente également les scores de référence pour la version NVFP4 comparés à la pleine précision sur diverses métriques comme GPQA, AIME et MMLU Pro.

nvidia/Gemma-4-26B-A4B-NVFP4
42
ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

Anyone have an S3-compatible store that actually saturates H100s without the AWS egress tax? [R]

Um usuário está treinando modelos de IA em Lambda Labs com um dataset de 40TB no AWS S3, enfrentando altas taxas de egress. Ele busca uma alternativa de armazenamento sem taxas de egress e alta velocidade, ou uma camada de cache NVMe, após problemas de latência com Cloudflare R2 levarem à subutilização da GPU.

42
RESEARCH↑ trendingReddit r/MachineLearning·03/05/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Ce projet introduit la bibliothèque Python "torch-nvenc-compress", qui utilise le silicium NVENC/NVDEC du GPU pour compresser les activations et le cache KV des LLM, visant à surmonter les goulots d'étranglement de bande passante PCIe dans les configurations multi-GPU. Il mesure un chevauchement de chemin parallèle à 67% du maximum théorique, améliorant la communication entre les GPU grand public.

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]
42
ARTICLE↑ trendingReddit r/LocalLLaMA·07/05/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

L'utilisateur demande conseil pour choisir entre une RTX 5090 et un M5 Max 128GB pour le développement de logiciels agentiques avec Qwen3.6 27B en local. La RTX 5090 offre une vitesse 3 fois supérieure, tandis que le M5 Max offre 4 fois plus de mémoire, posant un compromis entre la génération rapide de code et une plus grande capacité de contexte.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·24/04/2026

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

Un utilisateur a sollicité des conseils sur l'achat de matériel d'IA haut de gamme pour exécuter de grands modèles comme Gemma4s et Qwen3.6s, comparant une GPU Blackwell/RTX Pro 6000 96G et un Mac Studio M3 Ultra 256G. Ils ont finalement opté pour l'option Blackwell, citant sa capacité supérieure de traitement des tokens et une offre avantageuse.

Hard freakin' decision..Blackwell 96G or Mac Studio 256G
39
ARTICLEDEV.to AI·23/04/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

L'auteur a lancé un nouvel outil bêta, le « Local AI VRAM Calculator & GPU Planner », pour aider à déterminer les exigences en GPU et VRAM pour l'exécution locale des LLM. Cet outil vise à rendre visibles les compromis matériels pour différentes charges de travail et niveaux de quantification avant d'investir dans des composants.

39
NEWS↑ trendingReddit r/LocalLLaMA·12/04/2026

Weekend project with Intel B70s

Un utilisateur assemble un système haut de gamme avec des GPU Intel Arc B70 et une carte mère Gigabyte B850 AI Top. L'objectif est de tester le modèle Gemma 4 dans des applications RAG juridiques, en utilisant un agent Hermes.

38
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 26j

The RTX 5000 PRO (48GB) arrived and it is better than I expected.

L'auteur, un novice en assemblage de PC, a acheté une carte graphique RTX 5000 Pro pour le traitement de LLMs locaux, dépensant un total de 5600 $. Malgré des difficultés initiales avec l'assemblage et la configuration logicielle (Linux, vLLM), les performances du GPU ont dépassé ses attentes.

37
ARTICLE↑ trendingReddit r/MachineLearning·17/04/2026

Which computer should I buy: Mac or custom-built 5090? [D]

L'utilisateur demande conseil pour choisir entre un Mac M5 MAX avec MLX et un PC personnalisé avec une RTX 5090 pour ses projets d'apprentissage automatique. Son travail implique principalement le réglage fin de grands modèles pré-entraînés et l'entraînement à partir de zéro, souvent avec des données image/vidéo et, parfois, des LLM, faisant de la VRAM un facteur critique.

36
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

China modded GPU (eg. 4090 48gb) --> I'm gonna figure it out. IS THERE NO ONE ELSE CURIOUS??

L'auteur manifeste un vif intérêt à comprendre les GPU chinois modifiés, tels qu'une 4090 48GB, soulignant le manque d'informations dans le monde anglophone. Il recherche les expériences des utilisateurs concernant leurs performances, leur fiabilité, les particularités logicielles, les benchmarks et les prix, notamment pour les applications d'IA/LLM.

33
ARTICLE↑ trendingReddit r/MachineLearning·27/04/2026

Anyone using Tensordock GPU instances and having problems with failing VM’s [D]

Un utilisateur signale des problèmes critiques avec les instances GPU de Tensordock, où sa VM dédiée à une recherche précieuse n'a pas pu démarrer pendant deux jours malgré les paiements continus. Il exprime une frustration extrême face à l'absence totale de support et à la non-fiabilité du service, craignant une perte de données avec une compensation incertaine.

32