ARTICLE↑ trending45

Unweight: how we compressed an LLM 22% without sacrificing quality

Reddit r/LocalLLaMA·19 de abril de 2026

A Cloudflare desenvolveu o Unweight, um sistema de compressão sem perdas que reduz o tamanho dos pesos de LLMs em 15-22% para otimizar a inferência em GPUs. Ele comprime os bytes dos expoentes dos pesos BF16 usando codificação Huffman, mantendo a qualidade exata das saídas.

GPU optimization lossless compression LLM compression Inference Optimization

Ler original ↗