GPU

46 items

NEWS↑ trendingReddit r/LocalLLaMA·18/4/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare lanzó Unweight, un sistema de compresión sin pérdidas que reduce el tamaño de los LLM entre un 15 y un 22% sin sacrificar la precisión de la salida. La herramienta, que ahorra aproximadamente 3 GB de VRAM en GPUs Nvidia H100 para Llama-3.1-8B, ha sido de código abierto en GitHub con planes de extender la compresión.

Open Source Optimization GPU compression

NEWS↑ trendingReddit r/MachineLearning·22/4/2026

GPU Compass – open-source, real-time GPU pricing across 20+ clouds [P]

Se ha lanzado GPU Compass, una herramienta de código abierto que ofrece precios de GPU en tiempo real de más de 20 proveedores de la nube. Cataloga 50 modelos de GPU y más de 2.000 ofertas, incluyendo precios bajo demanda, spot y tendencias históricas, haciendo los datos brutos accesibles a todos.

Open Source cloud computing GPU AI infrastructure

ARTICLE↑ trendingReddit r/LocalLLaMA·11/4/2026

Gemma 4 31B vs Qwen 3.5 27B: Which is best for long context worklows? My THOUGHTS...

El artículo compara los modelos Gemma 4 31B y Qwen 3.5 27B, considerándolos los mejores para uso local en tarjetas gráficas de 24GB. El autor elogia la capacidad de Qwen 3.5 27B para manejar el razonamiento y el análisis de contextos largos sin alucinaciones, lo que representa una evolución significativa.

GPU Gemma 4 31B Long Context Qwen 3.5 27B

RESEARCH↑ trendingReddit r/LocalLLaMA·13/4/2026

MiniMax-M2.7 NVFP4 on 2x RTX PRO 6000 Blackwell — bench numbers

Este contenido presenta los resultados de benchmark para el LLM MiniMax-M2.7, utilizando cuantificación NVFP4 en una configuración de doble GPU NVIDIA RTX PRO 6000 Blackwell. Detalla el rendimiento de decodificación en varios niveles de concurrencia y el rendimiento de prellenado en diferentes tamaños de contexto.

GPU Benchmarking NVIDIA Blackwell MiniMax M2.7

MiniMax-M2.7 NVFP4 on 2x RTX PRO 6000 Blackwell — bench numbers

ARTICLE↑ trendingReddit r/LocalLLaMA·6/5/2026

Analysis of the 100 most popular hardware setups on Hugging Face

Este contenido analiza las 100 configuraciones de hardware más populares utilizadas en la plataforma Hugging Face. Ofrece información sobre las preferencias y tendencias de infraestructura para el desarrollo de la IA.

Hugging Face cloud computing GPU AI hardware

Analysis of the 100 most popular hardware setups on Hugging Face

DOC↑ trendingReddit r/LocalLLaMA·11/4/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Este documento detalla la ejecución optimizada del modelo Qwen3.5-397B-A17B-MXFP4 utilizando vLLM en GPUs RDNA4, como 8xR9700. Incluye un Dockerfile con parches de Triton e instrucciones para descargar el modelo y lanzar el contenedor de inferencia.

Docker GPU MXFP4 Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·1/5/2026

nvidia/Gemma-4-26B-A4B-NVFP4

El contenido confirma el rendimiento del modelo Gemma-4-26B-A4B-NVFP4 en una GPU NVIDIA 5090, detallando el uso de 18.8GB de VRAM y una capacidad de contexto de 50k. También presenta puntuaciones de referencia para la versión NVFP4 en comparación con la precisión total en varias métricas como GPQA, AIME y MMLU Pro.

AI models GPU Benchmarking NVIDIA

ARTICLE↑ trendingReddit r/MachineLearning·9/4/2026

Anyone have an S3-compatible store that actually saturates H100s without the AWS egress tax? [R]

Um usuário está treinando modelos de IA em Lambda Labs com um dataset de 40TB no AWS S3, enfrentando altas taxas de egress. Ele busca uma alternativa de armazenamento sem taxas de egress e alta velocidade, ou uma camada de cache NVMe, após problemas de latência com Cloudflare R2 levarem à subutilização da GPU.

cloud storage GPU AI training HPC

CASE↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

El autor implementó con éxito modelos Qwen 3.6 (27B y 35B) localmente para codificación, demostrando un rendimiento comparable al de Claude Code. Esta configuración local redujo drásticamente los costos, de un estimado de $142 en llamadas a la API a menos de $4 en electricidad en 8 horas.

GPU Claude local inference Cost Savings

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

ARTICLE↑ trendingReddit r/LocalLLaMA·23/4/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

El título describe una optimización impresionante para el modelo Qwen3.6–27B, logrando 85 TPS y 125K de contexto con capacidades de visión en una sola RTX 3090. Esto es un logro técnico significativo para la implementación eficiente de LLMs.

Optimization multimodal AI GPU large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

RESEARCH↑ trendingReddit r/MachineLearning·3/5/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Este proyecto presenta la biblioteca Python "torch-nvenc-compress", que utiliza el hardware NVENC/NVDEC de la GPU para comprimir activaciones y caché KV de LLMs, con el objetivo de superar los cuellos de botella de ancho de banda PCIe en configuraciones multi-GPU. Mide una superposición de ruta paralela del 67% del máximo teórico, mejorando la comunicación entre GPUs de consumo.

NVENC GPU PCIe compression

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

El usuario busca consejo sobre la elección entre una RTX 5090 y un M5 Max 128GB para el desarrollo de software agéntico con Qwen3.6 27B localmente. La RTX 5090 ofrece el triple de velocidad, mientras que el M5 Max proporciona el cuádruple de memoria, lo que plantea una disyuntiva entre la velocidad de generación de código y una mayor capacidad de contexto.

LLMs GPU hardware performance

ARTICLE↑ trendingReddit r/LocalLLaMA·24/4/2026

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

Un usuario buscó consejo sobre la compra de hardware de IA de alta gama para ejecutar modelos grandes como Gemma4s y Qwen3.6s, sopesando opciones entre una GPU Blackwell/RTX Pro 6000 96G y un Mac Studio M3 Ultra 256G. Finalmente se decidieron por la opción Blackwell, citando su capacidad superior de manejo de tokens y una oferta favorable.

AI applications GPU AI hardware large language models

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

ARTICLEDEV.to AI·23/4/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

El autor ha lanzado una nueva herramienta beta, el "Local AI VRAM Calculator & GPU Planner", para ayudar a determinar los requisitos de GPU y VRAM para ejecutar LLMs localmente. Esta herramienta busca hacer visibles las compensaciones de hardware para diferentes cargas de trabajo y niveles de cuantificación antes de invertir en componentes.

LLMs GPU VRAM AI tools

NEWS↑ trendingReddit r/LocalLLaMA·12/4/2026

Weekend project with Intel B70s

Un usuario está construyendo un sistema de alta gama con GPUs Intel Arc B70 y una placa base Gigabyte B850 AI Top. El objetivo es probar el modelo Gemma 4 en aplicaciones de RAG legal, utilizando un agente Hermes.

Legal AI GPU RAG AI model

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 26d

The RTX 5000 PRO (48GB) arrived and it is better than I expected.

El autor, un novato en el montaje de PCs, compró una GPU RTX 5000 Pro para el procesamiento local de LLMs, gastando un total de $5600. A pesar de las dificultades iniciales con el ensamblaje y la configuración del software (Linux, vLLM), el rendimiento de la GPU superó sus expectativas.

local LLM PC Build GPU AI

ARTICLE↑ trendingReddit r/MachineLearning·17/4/2026

Which computer should I buy: Mac or custom-built 5090? [D]

El usuario busca consejo para elegir entre un Mac M5 MAX con MLX y un PC personalizado con una RTX 5090 para sus proyectos de aprendizaje automático. Su trabajo implica principalmente el ajuste fino de grandes modelos pre-entrenados y el entrenamiento desde cero, a menudo con datos de imagen/vídeo y, a veces, LLMs, lo que convierte la VRAM en un factor crítico.

deep learning GPU machine learning hardware

NEWS↑ trendingReddit r/LocalLLaMA·9/4/2026

backend-agnostic tensor parallelism has been merged into llama.cpp

A funcionalidade de paralelismo de tensor backend-agnóstico foi integrada ao llama.cpp, permitindo que modelos de IA rodem muito mais rápido em sistemas com múltiplas GPUs. Isso significa que a aceleração de desempenho não exige mais CUDA.

LLMs Otimização GPU IA

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 25d

China modded GPU (eg. 4090 48gb) --> I'm gonna figure it out. IS THERE NO ONE ELSE CURIOUS??

El autor expresa un gran interés en comprender las GPUs chinas modificadas, como una 4090 de 48GB, señalando la falta de información en el mundo de habla inglesa. Busca experiencias de usuarios sobre su rendimiento, fiabilidad, peculiaridades de software, benchmarks y precios, especialmente para aplicaciones de IA/LLM.

modding China tech GPU AI hardware

ARTICLE↑ trendingReddit r/MachineLearning·27/4/2026

Anyone using Tensordock GPU instances and having problems with failing VM’s [D]

Un usuario informa problemas críticos con las instancias de GPU de Tensordock, donde su VM para investigación valiosa no ha podido iniciarse durante dos días a pesar de los pagos continuos. Expresan extrema frustración por la total falta de soporte y la falta de fiabilidad del servicio, temiendo la pérdida de datos con una compensación incierta.

cloud computing GPU AI infrastructure service-issues