← heapsort-ai

vLLM

14 items

ARTICLE↑ trendingReddit r/LocalLLaMA·11/04/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

A placa Intel Arc Pro B70 32GB atingiu ~12 tps com llama.cpp e vLLM para consultas únicas, e 135 tps com 32 concorrências, o que é 20% menos que a RTX PRO 4500 32GB. O consumo de energia em alta concorrência foi 50% maior que a RTX PRO 4500, e o paralelismo de tensor degradou o desempenho, enquanto o de pipeline o melhorou em alta concorrência.

43
DOC↑ trendingReddit r/LocalLLaMA·11/04/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Este documento detalha como executar o modelo Qwen3.5-397B-A17B-MXFP4 usando vLLM em GPUs RDNA4 (como 8xR9700) para um desempenho otimizado. Ele fornece um Dockerfile com patches de Triton e instruções para baixar o modelo e lançar o contêiner de inferência.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·30/04/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Esta atualização detalha a execução do Qwen3.6-27B em uma única RTX 3090, alcançando ~218K de contexto e chamadas de ferramenta estáveis a 50-66 TPS. Um problema crítico de memória com saídas de ferramenta longas foi resolvido corrigindo um desvio de âncora em um patch Genesis (PN12) para vLLM.

42
CASE↑ trendingReddit r/LocalLLaMA·15/04/2026

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

O usuário adquiriu um DGX Spark e busca conselhos para configurá-lo para inferência local de LLM, utilizando vLLM, PyTorch e modelos Hugging Face para um backend de API privado. Ele procura recomendações de modelos eficientes, dicas de otimização para vLLM em sistemas de memória unificada e insights sobre o desempenho real do hardware.

DGX Spark just arrived — planning to run vLLM + local models, looking for advice
42
DOCDEV.to AI·26d atrás

How to Deploy Llama 3.2 with vLLM + Batch Processing on a $8/Month DigitalOcean Droplet: Asynchronous Inference at 1/125th Claude Cost

Este artigo oferece um guia detalhado sobre como implantar o Llama 3.2 com vLLM e processamento em lote em um Droplet de baixo custo da DigitalOcean. Ele demonstra como obter inferência assíncrona a custos significativamente mais baixos em comparação com APIs de IA comerciais como Claude, processando mais de 10.000 tokens por segundo por US$ 8/mês.

27
DOCDEV.to AI·26d atrás

How to Deploy Nemotron-4 340B with vLLM on a $24/Month DigitalOcean GPU Droplet: Enterprise-Grade Reasoning at 1/130th Claude Opus Cost

Este guia detalha como implantar o modelo Nemotron-4 340B da NVIDIA com vLLM em um Droplet GPU da DigitalOcean por $24/mês. Essa configuração oferece recursos de raciocínio de nível empresarial, alcançando uma redução de custo de 99% em comparação com o uso da API Claude Opus para cargas de trabalho semelhantes.

27
DOCDEV.to AI·09/05/2026

How to Deploy Qwen2.5 72B with vLLM + FastAPI on a $20/Month DigitalOcean GPU Droplet: Production Inference at 1/90th Claude Cost

Este artigo detalha como implantar o modelo Qwen2.5 72B em um droplet de GPU da DigitalOcean por apenas US$ 20/mês. Ele oferece uma alternativa de baixo custo às APIs de LLM comerciais, prometendo inferência em produção com desempenho competitivo ao Claude 3.5 Sonnet e uma redução de custos de 98%.

27
DOCDEV.to AI·25d atrás

How to Deploy Mistral Nemo with vLLM + Flash Attention on a $12/Month DigitalOcean GPU Droplet: 3x Faster Inference at 1/95th Claude Cost

O artigo detalha como implantar o modelo Mistral Nemo em um Droplet de GPU DigitalOcean de US$ 12/mês, utilizando vLLM e Flash Attention. Esta abordagem oferece inferência 3x mais rápida e uma redução de custos de 95% em comparação com APIs de IA comerciais como Claude, promovendo uma auto-hospedagem eficiente de modelos de IA de código aberto.

27