vLLM

14 items

ARTICLE↑ trendingReddit r/LocalLLaMA·11/04/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

La carte Intel Arc Pro B70 32GB a atteint ~12 tps pour les requêtes uniques et 135 tps avec 32 concurrences sur Qwen3.5-27B@Q4, soit 20% de moins que la RTX PRO 4500. De plus, elle a consommé 50% plus d'énergie en forte concurrence, le parallélisme tensoriel dégradant les performances tandis que le parallélisme de pipeline les améliorait.

Qwen3.5 llama.cpp GPU performance Intel Arc Pro B70

DOC↑ trendingReddit r/LocalLLaMA·11/04/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Ce document détaille l'exécution optimisée du modèle Qwen3.5-397B-A17B-MXFP4 à l'aide de vLLM sur des GPU RDNA4, tels que 8xR9700. Il fournit un Dockerfile avec des correctifs Triton et des instructions pour télécharger le modèle et lancer le conteneur d'inférence.

Docker GPU MXFP4 Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·30/04/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Cette mise à jour détaille l'exécution de Qwen3.6-27B sur une seule RTX 3090, atteignant un contexte de ~218K et des appels d'outils stables à 50-66 TPS. Un problème de mémoire critique avec de longues sorties d'outils a été résolu en corrigeant une dérive d'ancre dans un patch Genesis (PN12) pour vLLM.

Optimization hardware performance vLLM

CASE↑ trendingReddit r/LocalLLaMA·15/04/2026

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

Un nouvel acquéreur de DGX Spark cherche des conseils pour configurer son système pour l'inférence locale de LLM, prévoyant d'utiliser vLLM, PyTorch et des modèles Hugging Face pour un backend d'API privé. Il demande des recommandations de modèles efficaces, des astuces de réglage pour vLLM sur les systèmes à mémoire unifiée et des retours sur le débit réel.

DGX Spark On-prem AI LLM inference PyTorch

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

ARTICLEDEV.to AI·08/04/2026

Beyond the VM: Why vLLM and FlashAttention need Bare Metal GPUs 🚀

Este conteúdo técnico explica por que VMs em nuvem prejudicam a inferência de LLMs com frameworks como vLLM e FlashAttention, citando problemas como jitter de batching e gargalos de virtualização. Argumenta-se que GPUs bare metal são cruciais para o desempenho ideal em produção, preservando otimizações e a largura de banda do NVLink.

FlashAttention Virtualization GPU infrastructure

DOCDEV.to AI·il y a 26j

How to Deploy Llama 3.2 with vLLM + Batch Processing on a $8/Month DigitalOcean Droplet: Asynchronous Inference at 1/125th Claude Cost

Cet article propose un guide détaillé sur le déploiement de Llama 3.2 avec vLLM et le traitement par lots sur un Droplet DigitalOcean à faible coût. Il démontre comment réaliser une inférence asynchrone à des coûts nettement inférieurs par rapport aux API d'IA commerciales comme Claude, traitant plus de 10 000 jetons par seconde pour 8 $ par mois.

learning cost optimization Llama 3.2 LLM deployment

DOCDEV.to AI·il y a 27j

How to Deploy Nemotron-4 340B with vLLM on a $24/Month DigitalOcean GPU Droplet: Enterprise-Grade Reasoning at 1/130th Claude Opus Cost

Ce guide explique comment déployer le modèle Nemotron-4 340B de NVIDIA avec vLLM sur un Droplet GPU DigitalOcean pour 24 $/mois. Cette configuration offre des capacités de raisonnement de qualité professionnelle, permettant une réduction de coût de 99% par rapport à l'utilisation de l'API Claude Opus pour des charges de travail similaires.

NVIDIA Nemotron-4 learning AI deployment cost optimization

ARTICLEHugging Face Blog·06/05/2026

vLLM V0 to V1: Correctness Before Corrections in RL

Ce contenu traite de la transition de vLLM V0 à V1, en mettant l'accent sur l'importance de la justesse avant les corrections dans l'apprentissage par renforcement. Il explore les principes de développement et les améliorations pour garantir l'intégrité et la performance des systèmes d'IA.

LLMs reinforcement learning Machine Learning AI development

DOCDEV.to AI·09/05/2026

How to Deploy Qwen2.5 72B with vLLM + FastAPI on a $20/Month DigitalOcean GPU Droplet: Production Inference at 1/90th Claude Cost

Cet article explique comment déployer le modèle Qwen2.5 72B sur un Droplet GPU DigitalOcean pour seulement 20 $/mois. Il offre une alternative économique aux API LLM commerciales, promettant une inférence en production avec des performances comparables à Claude 3.5 Sonnet et une réduction de coût de 98 %.

learning Qwen2.5 cost optimization LLM deployment

DOCDEV.to AI·il y a 25j

How to Deploy Mistral Nemo with vLLM + Flash Attention on a $12/Month DigitalOcean GPU Droplet: 3x Faster Inference at 1/95th Claude Cost

Cet article détaille comment déployer le modèle Mistral Nemo sur un Droplet GPU DigitalOcean à 12 $/mois, en utilisant vLLM et Flash Attention. Cette approche offre une inférence 3 fois plus rapide et une réduction des coûts de 95 % par rapport aux API d'IA commerciales comme Claude, prônant l'auto-hébergement efficace des modèles d'IA open source.

Mistral Nemo Flash Attention AI deployment cost optimization

DOCDEV.to AI·il y a 26j

How to Deploy Qwen2.5 32B with vLLM + Quantization on a $12/Month DigitalOcean GPU Droplet: Production-Grade Inference at 1/100th Claude Cost

Ce contenu explique comment déployer le modèle de langage Qwen2.5 32B avec vLLM et la quantification sur un droplet GPU DigitalOcean à 12 $/mois. Il démontre une inférence de qualité production à un coût nettement inférieur à celui des API commerciales.

deployment quantization cost optimization vLLM

DOCAWS Machine Learning Blog·il y a 21j

Build real-time voice applications with Amazon SageMaker AI and vLLM

Les applications vocales en temps réel, telles que les agents vocaux et le sous-titrage en direct, dépendent d'une transcription vocale simultanée. L'inférence traditionnelle est insuffisante, introduisant une latence qui entrave la fonctionnalité en temps réel.

voice applications Speech-to-Text real-time AI Amazon SageMaker

DOCDEV.to AI·il y a 9j

How to Deploy Llama 3.2 Vision with vLLM + Quantization on a $6/Month DigitalOcean Droplet: Multimodal Reasoning at 1/210th GPT-4 Vision Cost

Ce contenu explique comment déployer Llama 3.2 Vision avec vLLM et quantification sur un Droplet DigitalOcean afin de réduire drastiquement les coûts par rapport à GPT-4 Vision. Il met en avant l'inférence multimodale de qualité production à une fraction du prix.

multimodal AI Llama 3 AI deployment cost optimization

DOCDeepLearning.AI (YouTube)·il y a 7j

Optimize, deploy, and benchmark an open-source LLM with vLLM

Ce contenu décrit comment optimiser, déployer et évaluer efficacement des grands modèles de langage (LLM) open source à l'aide de la bibliothèque vLLM. Il offre des conseils pratiques pour améliorer les performances et l'efficacité des déploiements de LLM.

Optimization deployment benchmarking vLLM

Optimize, deploy, and benchmark an open-source LLM with vLLM