ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026
Unweight: how we compressed an LLM 22% without sacrificing quality
Cloudflare creó Unweight, un sistema de compresión sin pérdidas que reduce los pesos de LLMs entre un 15% y un 22% para optimizar la inferencia en GPUs. Utiliza codificación Huffman para comprimir los exponentes de los pesos BF16, manteniendo salidas bit a bit exactas.

45