Unweight: how we compressed an LLM 22% without sacrificing quality
A Cloudflare desenvolveu o Unweight, um sistema de compressão sem perdas que reduz o tamanho dos pesos de LLMs em 15-22% para otimizar a inferência em GPUs. Ele comprime os bytes dos expoentes dos pesos BF16 usando codificação Huffman, mantendo a qualidade exata das saídas.
