← heapsort-ai

vLLM

14 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/11/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

Die Intel Arc Pro B70 32GB Karte erreichte auf Qwen3.5-27B@Q4 ~12 tps bei einzelnen Anfragen und 135 tps bei 32 gleichzeitigen Anfragen, was 20% weniger ist als bei der RTX PRO 4500. Außerdem verbrauchte sie bei hoher Parallelität 50% mehr Strom, wobei Tensor-Parallelisierung die Leistung verschlechterte, während Pipeline-Parallelisierung sie verbesserte.

43
DOC↑ trendingReddit r/LocalLLaMA·4/11/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Dieses Dokument beschreibt die optimierte Ausführung des Qwen3.5-397B-A17B-MXFP4-Modells mittels vLLM auf RDNA4-GPUs, wie 8xR9700. Es enthält ein Dockerfile mit Triton-Patches und Anweisungen zum Herunterladen des Modells sowie zum Starten des Inferenz-Containers.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/30/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Dieses Update beschreibt den Betrieb von Qwen3.6-27B auf einer einzelnen RTX 3090, wodurch ein Kontext von ~218K und stabile Werkzeugaufrufe bei 50-66 TPS erreicht werden. Ein kritisches Speicherproblem bei langen Werkzeugausgaben wurde durch die Behebung eines Ankerdrifts in einem Genesis-Patch (PN12) für vLLM gelöst.

42
CASE↑ trendingReddit r/LocalLLaMA·4/15/2026

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

Ein neuer DGX Spark Besitzer sucht Ratschläge zur Konfiguration für lokale LLM-Inferenz und plant die Nutzung von vLLM, PyTorch und Hugging Face Modellen für ein privates API-Backend. Er bittet um Empfehlungen für effiziente Modelle, Optimierungstipps für vLLM auf Unified-Memory-Systemen und Einblicke in den realen Durchsatz.

DGX Spark just arrived — planning to run vLLM + local models, looking for advice
42
DOCDEV.to AI·vor 26T

How to Deploy Llama 3.2 with vLLM + Batch Processing on a $8/Month DigitalOcean Droplet: Asynchronous Inference at 1/125th Claude Cost

Dieser Artikel bietet eine detaillierte Anleitung zur Bereitstellung von Llama 3.2 mit vLLM und Batch-Verarbeitung auf einem kostengünstigen DigitalOcean Droplet. Er zeigt, wie asynchrone Inferenz zu deutlich geringeren Kosten im Vergleich zu kommerziellen KI-APIs wie Claude erreicht werden kann, indem über 10.000 Token pro Sekunde für 8 $/Monat verarbeitet werden.

27
DOCDEV.to AI·vor 26T

How to Deploy Nemotron-4 340B with vLLM on a $24/Month DigitalOcean GPU Droplet: Enterprise-Grade Reasoning at 1/130th Claude Opus Cost

Dieser Leitfaden beschreibt, wie das NVIDIA Nemotron-4 340B Modell mit vLLM auf einem DigitalOcean GPU Droplet für 24 $/Monat bereitgestellt wird. Dieses Setup bietet Reasoning-Funktionen auf Unternehmensniveau und erreicht eine Kostenreduzierung von 99% im Vergleich zur Nutzung der Claude Opus API für ähnliche Workloads.

27
DOCDEV.to AI·5/9/2026

How to Deploy Qwen2.5 72B with vLLM + FastAPI on a $20/Month DigitalOcean GPU Droplet: Production Inference at 1/90th Claude Cost

Dieser Artikel beschreibt detailliert, wie das Qwen2.5 72B-Modell für nur 20 $/Monat auf einem DigitalOcean GPU Droplet bereitgestellt werden kann. Es bietet eine kostengünstige Alternative zu kommerziellen LLM-APIs, verspricht Produktionsinferenz mit wettbewerbsfähiger Leistung zu Claude 3.5 Sonnet und eine Kostensenkung von 98 %.

27
DOCDEV.to AI·vor 25T

How to Deploy Mistral Nemo with vLLM + Flash Attention on a $12/Month DigitalOcean GPU Droplet: 3x Faster Inference at 1/95th Claude Cost

Dieser Artikel beschreibt detailliert, wie das Mistral Nemo-Modell auf einem 12 $/Monat DigitalOcean GPU Droplet eingesetzt wird, unter Verwendung von vLLM und Flash Attention. Dieser Ansatz bietet eine 3-mal schnellere Inferenz und eine 95%ige Kostensenkung im Vergleich zu kommerziellen KI-APIs wie Claude und befürwortet das effiziente Self-Hosting von Open-Source-KI-Modellen.

27