heapsort
ARTICLE↑ trending45

Unweight: how we compressed an LLM 22% without sacrificing quality

Reddit r/LocalLLaMA·19. April 2026
Unweight: how we compressed an LLM 22% without sacrificing quality

Cloudflare hat Unweight entwickelt, ein verlustfreies Kompressionssystem, das LLM-Gewichte um 15–22 % reduziert, um Engpässe bei der GPU-Inferenz zu überwinden. Es komprimiert die Exponenten-Bytes von BF16-Gewichten mittels Huffman-Codierung und bewahrt bitgenaue Ausgaben.

Original lesen