ARTICLE↑ trending42

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Reddit r/LocalLLaMA·22 de maio de 2026

O conteúdo discute um desafio técnico no llama.cpp relacionado à quantização de cache KV q8/q4 assimétrica, que pode forçar o processamento na CPU em vez da GPU para CUDA. Uma discussão no GitHub sugere que compilar com uma combinação específica de quantização de cache KV, mesmo sem FA_ALL_QUANTS, oferece economia significativa de memória com apenas 1,3% de perda de precisão.

llama.cpp GPU optimization quantization KV cache ggml

Ler original ↗