INT3 compression+fused metal kernels [R]
Um pesquisador e fundador solo desenvolveu compressão de modelos INT3 e um cache KV de 2 bits com kernels Metal customizados para Mac (M-series). Qwen 7B está disponível em prévia, e otimizações adicionais e suporte a GPU estão planejados.

