NEWS↑ trending48
INT3 compression+fused metal kernels [R]
Reddit r/MachineLearning·22 avril 2026
Un chercheur et fondateur solo a développé la compression de modèles INT3 et un cache KV de 2 bits avec des noyaux Metal personnalisés pour Mac (série M). Qwen 7B est disponible en prévisualisation, et d'autres optimisations et le support GPU sont prévus.
Lire l'original ↗