[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo
O conteúdo discute um desafio técnico no llama.cpp relacionado à quantização de cache KV q8/q4 assimétrica, que pode forçar o processamento na CPU em vez da GPU para CUDA. Uma discussão no GitHub sugere que compilar com uma combinação específica de quantização de cache KV, mesmo sem FA_ALL_QUANTS, oferece economia significativa de memória com apenas 1,3% de perda de precisão.