[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo
Ce contenu aborde un défi dans llama.cpp concernant la quantification asymétrique du cache KV q8/q4, qui peut entraîner un traitement CPU sur CUDA. Une discussion GitHub souligne qu'une compilation avec une combinaison spécifique de quantification du cache KV permet des économies de mémoire substantielles avec une perte de précision minime de 1,3%.