[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo
Dieser Inhalt behandelt eine Herausforderung in llama.cpp bezüglich der asymmetrischen KV q8/q4 Cache-Quantisierung, die zur CPU-Verarbeitung unter CUDA führen kann. Eine GitHub-Diskussion zeigt, dass das Kompilieren mit einer spezifischen KV-Cache-Quantisierungskombination erhebliche Speichereinsparungen bei nur 1,3 % Präzisionsverlust ermöglicht.