INT3 compression+fused metal kernels [R]
Un investigador y fundador solitario desarrolló compresión de modelos INT3 y una caché KV de 2 bits con kernels Metal personalizados para Mac (M-series). Qwen 7B está disponible en vista previa, y se planean optimizaciones adicionales y soporte para GPU.

