← heapsort-ai

vLLM

14 items

DOC↑ trendingReddit r/LocalLLaMA·11/4/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Este documento detalla la ejecución optimizada del modelo Qwen3.5-397B-A17B-MXFP4 utilizando vLLM en GPUs RDNA4, como 8xR9700. Incluye un Dockerfile con parches de Triton e instrucciones para descargar el modelo y lanzar el contenedor de inferencia.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·30/4/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Esta actualización detalla la ejecución de Qwen3.6-27B en una sola RTX 3090, logrando un contexto de ~218K y llamadas de herramientas estables a 50-66 TPS. Se resolvió un problema crítico de memoria con salidas de herramientas largas al corregir una desviación de anclaje en un parche Genesis (PN12) para vLLM.

42
DOCDEV.to AI·hace 26d

How to Deploy Llama 3.2 with vLLM + Batch Processing on a $8/Month DigitalOcean Droplet: Asynchronous Inference at 1/125th Claude Cost

Este artículo proporciona una guía detallada sobre cómo implementar Llama 3.2 con vLLM y procesamiento por lotes en un Droplet de DigitalOcean de bajo costo. Demuestra cómo lograr inferencia asíncrona a costos significativamente más bajos en comparación con las API de IA comerciales como Claude, procesando más de 10.000 tokens por segundo por $8/mes.

27
DOCDEV.to AI·hace 26d

How to Deploy Nemotron-4 340B with vLLM on a $24/Month DigitalOcean GPU Droplet: Enterprise-Grade Reasoning at 1/130th Claude Opus Cost

Esta guía detalla cómo implementar el modelo Nemotron-4 340B de NVIDIA con vLLM en un Droplet GPU de DigitalOcean por $24/mes. Esta configuración ofrece capacidades de razonamiento de grado empresarial, logrando una reducción de costos del 99% en comparación con el uso de la API Claude Opus para cargas de trabajo similares.

27
DOCDEV.to AI·9/5/2026

How to Deploy Qwen2.5 72B with vLLM + FastAPI on a $20/Month DigitalOcean GPU Droplet: Production Inference at 1/90th Claude Cost

Este artículo detalla cómo implementar el modelo Qwen2.5 72B en un droplet de GPU de DigitalOcean por solo $20 al mes. Ofrece una alternativa de bajo costo a las APIs comerciales de LLM, prometiendo inferencia de producción con un rendimiento competitivo al de Claude 3.5 Sonnet y una reducción de costos del 98%.

27
DOCDEV.to AI·hace 25d

How to Deploy Mistral Nemo with vLLM + Flash Attention on a $12/Month DigitalOcean GPU Droplet: 3x Faster Inference at 1/95th Claude Cost

Este artículo detalla cómo implementar el modelo Mistral Nemo en un Droplet de GPU de DigitalOcean de 12 $/mes, utilizando vLLM y Flash Attention. Este enfoque ofrece una inferencia 3 veces más rápida y una reducción de costos del 95 % en comparación con las API de IA comerciales como Claude, abogando por el autoalojamiento eficiente de modelos de IA de código abierto.

27