ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026
Unweight: how we compressed an LLM 22% without sacrificing quality
Cloudflare a développé Unweight, un système de compression sans perte qui réduit les poids des LLM de 15 à 22% pour optimiser l'inférence sur GPU. Il compresse les octets des exposants des poids BF16 via le codage de Huffman, préservant ainsi la qualité exacte des sorties.

45