ARTICLE↑ trending45

Unweight: how we compressed an LLM 22% without sacrificing quality

Reddit r/LocalLLaMA·19 de abril de 2026

Cloudflare creó Unweight, un sistema de compresión sin pérdidas que reduce los pesos de LLMs entre un 15% y un 22% para optimizar la inferencia en GPUs. Utiliza codificación Huffman para comprimir los exponentes de los pesos BF16, manteniendo salidas bit a bit exactas.

GPU optimization lossless compression LLM compression Inference Optimization

Leer original ↗