GPU optimization

7 items

ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

Unweight: how we compressed an LLM 22% without sacrificing quality

Cloudflare creó Unweight, un sistema de compresión sin pérdidas que reduce los pesos de LLMs entre un 15% y un 22% para optimizar la inferencia en GPUs. Utiliza codificación Huffman para comprimir los exponentes de los pesos BF16, manteniendo salidas bit a bit exactas.

GPU optimization lossless compression LLM compression Inference Optimization

Unweight: how we compressed an LLM 22% without sacrificing quality

DOC↑ trendingReddit r/LocalLLaMA·27/4/2026

To 16GB VRAM users, plug in your old GPU

Este contenido sugiere que los usuarios con 16GB de VRAM añadan una GPU antigua (6GB+ VRAM) para aumentar el VRAM total, permitiendo ejecutar modelos LLM más grandes (~30b) incluso con una tarjeta secundaria más débil. Incluye un ejemplo de configuración práctica para `llama-server`.

deep learning GPU optimization LLM inference VRAM management

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 18d

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Este contenido aborda un desafío en llama.cpp sobre la cuantificación asimétrica del caché KV q8/q4, que puede llevar al procesamiento en CPU con CUDA. Una discusión en GitHub sugiere que compilar con una combinación específica de cuantificación de caché KV, incluso sin FA_ALL_QUANTS, ofrece un ahorro sustancial de memoria con solo una pérdida de precisión del 1,3%.

llama.cpp GPU optimization quantization KV cache

NEWS↑ trendingReddit r/LocalLLaMA·27/4/2026

AMD Hipfire - a new inference engine optimized for AMD GPU's

El contenido presenta Hipfire, un nuevo motor de inferencia optimizado para todas las GPU de AMD, que utiliza un método de cuantificación mq4 especial. Los benchmarks iniciales de Localmaxxing muestran mejoras significativas de velocidad, aunque el creador aclara que no está oficialmente conectado a AMD.

Benchmarking GPU optimization AMD quantization

RESEARCHDEV.to AI·7/5/2026

Stateless scheduler doubles LLM training speed

El ajuste fino de grandes modelos de lenguaje a menudo enfrenta cuellos de botella debido a la asignación rígida de GPU y el paralelismo de pipeline ineficiente. Un nuevo programador sin estado, RoundPipe, optimiza el entrenamiento al despachar dinámicamente las etapas de computación a través de un pool de GPUs, duplicando efectivamente la velocidad de entrenamiento de LLMs.

deep learning machine learning GPU optimization Parallelism

DOCDEV.to AI·hace 28d

How NVIDIA engineers and researchers build with Codex

Ingenieros e investigadores de NVIDIA están aprovechando Codex de OpenAI, un modelo de IA avanzado, para ingeniería e investigación innovadoras. Integran Codex a través de API en sus herramientas de desarrollo de software existentes y crean interfaces personalizadas, optimizando su rendimiento en las GPUs de NVIDIA para una inferencia mejorada.

AI integration OpenAI Codex GPU optimization

DOCDEV.to AI·hace 6d

Qwen 3.6 27B: Frontier Coding on a Single 24GB GPU

Esta guía detalla cómo ejecutar el modelo de codificación Qwen 3.6 27B en una única GPU de consumidor de 24GB con cuantificación Q4. Cubre la integración del modelo local en un bucle de codificación agencial, las realidades del hardware, los tiempos de ejecución y la economía para desarrolladores de IA.

coding AI GPU optimization AI model deployment Local AI