ARTICLE↑ trending42

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Reddit r/LocalLLaMA·22 de mayo de 2026

Este contenido aborda un desafío en llama.cpp sobre la cuantificación asimétrica del caché KV q8/q4, que puede llevar al procesamiento en CPU con CUDA. Una discusión en GitHub sugiere que compilar con una combinación específica de cuantificación de caché KV, incluso sin FA_ALL_QUANTS, ofrece un ahorro sustancial de memoria con solo una pérdida de precisión del 1,3%.

llama.cpp GPU optimization quantization KV cache ggml

Leer original ↗