ARTICLE↑ trending45
Unweight: how we compressed an LLM 22% without sacrificing quality
Reddit r/LocalLLaMA·19 de abril de 2026

Cloudflare creó Unweight, un sistema de compresión sin pérdidas que reduce los pesos de LLMs entre un 15% y un 22% para optimizar la inferencia en GPUs. Utiliza codificación Huffman para comprimir los exponentes de los pesos BF16, manteniendo salidas bit a bit exactas.
Leer original ↗