vLLM

14 items

ARTICLE↑ trendingReddit r/LocalLLaMA·11/04/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

A placa Intel Arc Pro B70 32GB atingiu ~12 tps com llama.cpp e vLLM para consultas únicas, e 135 tps com 32 concorrências, o que é 20% menos que a RTX PRO 4500 32GB. O consumo de energia em alta concorrência foi 50% maior que a RTX PRO 4500, e o paralelismo de tensor degradou o desempenho, enquanto o de pipeline o melhorou em alta concorrência.

Qwen3.5 llama.cpp GPU performance Intel Arc Pro B70

DOC↑ trendingReddit r/LocalLLaMA·11/04/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Este documento detalha como executar o modelo Qwen3.5-397B-A17B-MXFP4 usando vLLM em GPUs RDNA4 (como 8xR9700) para um desempenho otimizado. Ele fornece um Dockerfile com patches de Triton e instruções para baixar o modelo e lançar o contêiner de inferência.

Docker GPU MXFP4 Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·30/04/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Esta atualização detalha a execução do Qwen3.6-27B em uma única RTX 3090, alcançando ~218K de contexto e chamadas de ferramenta estáveis a 50-66 TPS. Um problema crítico de memória com saídas de ferramenta longas foi resolvido corrigindo um desvio de âncora em um patch Genesis (PN12) para vLLM.

Optimization hardware performance vLLM

CASE↑ trendingReddit r/LocalLLaMA·15/04/2026

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

O usuário adquiriu um DGX Spark e busca conselhos para configurá-lo para inferência local de LLM, utilizando vLLM, PyTorch e modelos Hugging Face para um backend de API privado. Ele procura recomendações de modelos eficientes, dicas de otimização para vLLM em sistemas de memória unificada e insights sobre o desempenho real do hardware.

DGX Spark On-prem AI LLM inference PyTorch

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

ARTICLEDEV.to AI·08/04/2026

Beyond the VM: Why vLLM and FlashAttention need Bare Metal GPUs 🚀

Este conteúdo técnico explica por que VMs em nuvem prejudicam a inferência de LLMs com frameworks como vLLM e FlashAttention, citando problemas como jitter de batching e gargalos de virtualização. Argumenta-se que GPUs bare metal são cruciais para o desempenho ideal em produção, preservando otimizações e a largura de banda do NVLink.

FlashAttention Virtualization GPU infrastructure

DOCDEV.to AI·26d atrás

How to Deploy Llama 3.2 with vLLM + Batch Processing on a $8/Month DigitalOcean Droplet: Asynchronous Inference at 1/125th Claude Cost

Este artigo oferece um guia detalhado sobre como implantar o Llama 3.2 com vLLM e processamento em lote em um Droplet de baixo custo da DigitalOcean. Ele demonstra como obter inferência assíncrona a custos significativamente mais baixos em comparação com APIs de IA comerciais como Claude, processando mais de 10.000 tokens por segundo por US$ 8/mês.

learning Cost Optimization Llama 3.2 LLM deployment

DOCDeepLearning.AI (YouTube)·6d atrás

Optimize, deploy, and benchmark an open-source LLM with vLLM

Este conteúdo descreve como otimizar, implantar e comparar modelos de linguagem grandes (LLMs) de código aberto de forma eficaz usando a biblioteca vLLM. Ele oferece orientação prática para melhorar o desempenho e a eficiência das implantações de LLM.

Optimization deployment Benchmarking vLLM

Optimize, deploy, and benchmark an open-source LLM with vLLM

DOCDEV.to AI·26d atrás

How to Deploy Nemotron-4 340B with vLLM on a $24/Month DigitalOcean GPU Droplet: Enterprise-Grade Reasoning at 1/130th Claude Opus Cost

Este guia detalha como implantar o modelo Nemotron-4 340B da NVIDIA com vLLM em um Droplet GPU da DigitalOcean por $24/mês. Essa configuração oferece recursos de raciocínio de nível empresarial, alcançando uma redução de custo de 99% em comparação com o uso da API Claude Opus para cargas de trabalho semelhantes.

NVIDIA Nemotron-4 learning AI deployment Cost Optimization

ARTICLEHugging Face Blog·06/05/2026

vLLM V0 to V1: Correctness Before Corrections in RL

Este conteúdo aborda a transição da versão V0 para V1 do vLLM, com foco na importância da correção sobre as correções no Reinforcement Learning. Explora princípios de desenvolvimento e melhorias para garantir a integridade e o desempenho em sistemas de IA.

LLMs reinforcement learning machine learning AI development

DOCDEV.to AI·09/05/2026

How to Deploy Qwen2.5 72B with vLLM + FastAPI on a $20/Month DigitalOcean GPU Droplet: Production Inference at 1/90th Claude Cost

Este artigo detalha como implantar o modelo Qwen2.5 72B em um droplet de GPU da DigitalOcean por apenas US$ 20/mês. Ele oferece uma alternativa de baixo custo às APIs de LLM comerciais, prometendo inferência em produção com desempenho competitivo ao Claude 3.5 Sonnet e uma redução de custos de 98%.

learning Qwen2.5 Cost Optimization LLM deployment

DOCDEV.to AI·25d atrás

How to Deploy Mistral Nemo with vLLM + Flash Attention on a $12/Month DigitalOcean GPU Droplet: 3x Faster Inference at 1/95th Claude Cost

O artigo detalha como implantar o modelo Mistral Nemo em um Droplet de GPU DigitalOcean de US$ 12/mês, utilizando vLLM e Flash Attention. Esta abordagem oferece inferência 3x mais rápida e uma redução de custos de 95% em comparação com APIs de IA comerciais como Claude, promovendo uma auto-hospedagem eficiente de modelos de IA de código aberto.

Mistral Nemo Flash Attention AI deployment Cost Optimization

DOCDEV.to AI·26d atrás

How to Deploy Qwen2.5 32B with vLLM + Quantization on a $12/Month DigitalOcean GPU Droplet: Production-Grade Inference at 1/100th Claude Cost

O conteúdo detalha como implantar o modelo de linguagem Qwen2.5 32B usando vLLM e quantização em um droplet de GPU da DigitalOcean de $12/mês. Ele demonstra inferência de nível de produção com um custo significativamente menor do que as APIs comerciais.

deployment quantization Cost Optimization vLLM

DOCAWS Machine Learning Blog·20d atrás

Build real-time voice applications with Amazon SageMaker AI and vLLM

Aplicativos de voz em tempo real, como agentes de voz e legendagem ao vivo, dependem da transcrição simultânea de fala para texto. A inferência tradicional é ineficaz, adicionando latência que impede a funcionalidade em tempo real.

voice applications Speech-to-Text real-time AI Amazon SageMaker

DOCDEV.to AI·9d atrás

How to Deploy Llama 3.2 Vision with vLLM + Quantization on a $6/Month DigitalOcean Droplet: Multimodal Reasoning at 1/210th GPT-4 Vision Cost

Este conteúdo explica como implantar o Llama 3.2 Vision com vLLM e quantização em um Droplet DigitalOcean para reduzir drasticamente os custos em comparação com o GPT-4 Vision. Ele destaca a inferência multimodal de nível de produção por uma fração do preço.

multimodal AI Llama 3 AI deployment Cost Optimization