heapsort
ARTICLE↑ trending45

Unweight: how we compressed an LLM 22% without sacrificing quality

Reddit r/LocalLLaMA·19 de abril de 2026
Unweight: how we compressed an LLM 22% without sacrificing quality

Cloudflare creó Unweight, un sistema de compresión sin pérdidas que reduce los pesos de LLMs entre un 15% y un 22% para optimizar la inferencia en GPUs. Utiliza codificación Huffman para comprimir los exponentes de los pesos BF16, manteniendo salidas bit a bit exactas.

Leer original