heapsort
ARTICLE↑ trending45

Unweight: how we compressed an LLM 22% without sacrificing quality

Reddit r/LocalLLaMA·19 avril 2026
Unweight: how we compressed an LLM 22% without sacrificing quality

Cloudflare a développé Unweight, un système de compression sans perte qui réduit les poids des LLM de 15 à 22% pour optimiser l'inférence sur GPU. Il compresse les octets des exposants des poids BF16 via le codage de Huffman, préservant ainsi la qualité exacte des sorties.

Lire l'original