INT3 compression+fused metal kernels [R]
Ein alleiniger Gründer und Forscher hat INT3-Modellkomprimierung und einen 2-Bit-KV-Cache mit kundenspezifischen, fusionierten Metal-Kernels für Mac (M-Serie) entwickelt. Qwen 7B ist als Vorschau verfügbar, und weitere Optimierungen sowie GPU-Unterstützung sind geplant.

