← heapsort-ai

vLLM

14 items

DOC↑ trendingReddit r/LocalLLaMA·11/04/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Ce document détaille l'exécution optimisée du modèle Qwen3.5-397B-A17B-MXFP4 à l'aide de vLLM sur des GPU RDNA4, tels que 8xR9700. Il fournit un Dockerfile avec des correctifs Triton et des instructions pour télécharger le modèle et lancer le conteneur d'inférence.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·30/04/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Cette mise à jour détaille l'exécution de Qwen3.6-27B sur une seule RTX 3090, atteignant un contexte de ~218K et des appels d'outils stables à 50-66 TPS. Un problème de mémoire critique avec de longues sorties d'outils a été résolu en corrigeant une dérive d'ancre dans un patch Genesis (PN12) pour vLLM.

42
CASE↑ trendingReddit r/LocalLLaMA·15/04/2026

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

Un nouvel acquéreur de DGX Spark cherche des conseils pour configurer son système pour l'inférence locale de LLM, prévoyant d'utiliser vLLM, PyTorch et des modèles Hugging Face pour un backend d'API privé. Il demande des recommandations de modèles efficaces, des astuces de réglage pour vLLM sur les systèmes à mémoire unifiée et des retours sur le débit réel.

DGX Spark just arrived — planning to run vLLM + local models, looking for advice
42
DOCDEV.to AI·il y a 26j

How to Deploy Llama 3.2 with vLLM + Batch Processing on a $8/Month DigitalOcean Droplet: Asynchronous Inference at 1/125th Claude Cost

Cet article propose un guide détaillé sur le déploiement de Llama 3.2 avec vLLM et le traitement par lots sur un Droplet DigitalOcean à faible coût. Il démontre comment réaliser une inférence asynchrone à des coûts nettement inférieurs par rapport aux API d'IA commerciales comme Claude, traitant plus de 10 000 jetons par seconde pour 8 $ par mois.

27
DOCDEV.to AI·il y a 27j

How to Deploy Nemotron-4 340B with vLLM on a $24/Month DigitalOcean GPU Droplet: Enterprise-Grade Reasoning at 1/130th Claude Opus Cost

Ce guide explique comment déployer le modèle Nemotron-4 340B de NVIDIA avec vLLM sur un Droplet GPU DigitalOcean pour 24 $/mois. Cette configuration offre des capacités de raisonnement de qualité professionnelle, permettant une réduction de coût de 99% par rapport à l'utilisation de l'API Claude Opus pour des charges de travail similaires.

27
DOCDEV.to AI·09/05/2026

How to Deploy Qwen2.5 72B with vLLM + FastAPI on a $20/Month DigitalOcean GPU Droplet: Production Inference at 1/90th Claude Cost

Cet article explique comment déployer le modèle Qwen2.5 72B sur un Droplet GPU DigitalOcean pour seulement 20 $/mois. Il offre une alternative économique aux API LLM commerciales, promettant une inférence en production avec des performances comparables à Claude 3.5 Sonnet et une réduction de coût de 98 %.

27
DOCDEV.to AI·il y a 25j

How to Deploy Mistral Nemo with vLLM + Flash Attention on a $12/Month DigitalOcean GPU Droplet: 3x Faster Inference at 1/95th Claude Cost

Cet article détaille comment déployer le modèle Mistral Nemo sur un Droplet GPU DigitalOcean à 12 $/mois, en utilisant vLLM et Flash Attention. Cette approche offre une inférence 3 fois plus rapide et une réduction des coûts de 95 % par rapport aux API d'IA commerciales comme Claude, prônant l'auto-hébergement efficace des modèles d'IA open source.

27