← heapsort-ai

GPU

46 items

NEWS↑ trendingReddit r/LocalLLaMA·18/4/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare lanzó Unweight, un sistema de compresión sin pérdidas que reduce el tamaño de los LLM entre un 15 y un 22% sin sacrificar la precisión de la salida. La herramienta, que ahorra aproximadamente 3 GB de VRAM en GPUs Nvidia H100 para Llama-3.1-8B, ha sido de código abierto en GitHub con planes de extender la compresión.

44
DOC↑ trendingReddit r/LocalLLaMA·11/4/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Este documento detalla la ejecución optimizada del modelo Qwen3.5-397B-A17B-MXFP4 utilizando vLLM en GPUs RDNA4, como 8xR9700. Incluye un Dockerfile con parches de Triton e instrucciones para descargar el modelo y lanzar el contenedor de inferencia.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·1/5/2026

nvidia/Gemma-4-26B-A4B-NVFP4

El contenido confirma el rendimiento del modelo Gemma-4-26B-A4B-NVFP4 en una GPU NVIDIA 5090, detallando el uso de 18.8GB de VRAM y una capacidad de contexto de 50k. También presenta puntuaciones de referencia para la versión NVFP4 en comparación con la precisión total en varias métricas como GPQA, AIME y MMLU Pro.

nvidia/Gemma-4-26B-A4B-NVFP4
42
RESEARCH↑ trendingReddit r/MachineLearning·3/5/2026

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]

Este proyecto presenta la biblioteca Python "torch-nvenc-compress", que utiliza el hardware NVENC/NVDEC de la GPU para comprimir activaciones y caché KV de LLMs, con el objetivo de superar los cuellos de botella de ancho de banda PCIe en configuraciones multi-GPU. Mide una superposición de ruta paralela del 67% del máximo teórico, mejorando la comunicación entre GPUs de consumo.

torch-nvenc-compress: GPU NVENC silicon as a PCIe bandwidth multiplier — PCA + pure-ctypes Video Codec SDK wrapper. Parallel-path overlap measured at 67% of theoretical max on a real GEMM + encode workload. [P]
42
ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

El usuario busca consejo sobre la elección entre una RTX 5090 y un M5 Max 128GB para el desarrollo de software agéntico con Qwen3.6 27B localmente. La RTX 5090 ofrece el triple de velocidad, mientras que el M5 Max proporciona el cuádruple de memoria, lo que plantea una disyuntiva entre la velocidad de generación de código y una mayor capacidad de contexto.

41
ARTICLEDEV.to AI·23/4/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

El autor ha lanzado una nueva herramienta beta, el "Local AI VRAM Calculator & GPU Planner", para ayudar a determinar los requisitos de GPU y VRAM para ejecutar LLMs localmente. Esta herramienta busca hacer visibles las compensaciones de hardware para diferentes cargas de trabajo y niveles de cuantificación antes de invertir en componentes.

39
NEWS↑ trendingReddit r/LocalLLaMA·12/4/2026

Weekend project with Intel B70s

Un usuario está construyendo un sistema de alta gama con GPUs Intel Arc B70 y una placa base Gigabyte B850 AI Top. El objetivo es probar el modelo Gemma 4 en aplicaciones de RAG legal, utilizando un agente Hermes.

38
ARTICLE↑ trendingReddit r/MachineLearning·17/4/2026

Which computer should I buy: Mac or custom-built 5090? [D]

El usuario busca consejo para elegir entre un Mac M5 MAX con MLX y un PC personalizado con una RTX 5090 para sus proyectos de aprendizaje automático. Su trabajo implica principalmente el ajuste fino de grandes modelos pre-entrenados y el entrenamiento desde cero, a menudo con datos de imagen/vídeo y, a veces, LLMs, lo que convierte la VRAM en un factor crítico.

36
ARTICLE↑ trendingReddit r/MachineLearning·27/4/2026

Anyone using Tensordock GPU instances and having problems with failing VM’s [D]

Un usuario informa problemas críticos con las instancias de GPU de Tensordock, donde su VM para investigación valiosa no ha podido iniciarse durante dos días a pesar de los pagos continuos. Expresan extrema frustración por la total falta de soporte y la falta de fiabilidad del servicio, temiendo la pérdida de datos con una compensación incierta.

32