NEWS↑ trending48

INT3 compression+fused metal kernels [R]

Reddit r/MachineLearning·22 avril 2026

Un chercheur et fondateur solo a développé la compression de modèles INT3 et un cache KV de 2 bits avec des noyaux Metal personnalisés pour Mac (série M). Qwen 7B est disponible en prévisualisation, et d'autres optimisations et le support GPU sont prévus.

Hardware Acceleration LLMs quantization model optimization

Lire l'original ↗