RESEARCH↑ trendingReddit r/LocalLLaMA·26d atrás
A First Comprehensive Study of TurboQuant: Accuracy and Performance
Um estudo abrangente sobre o TurboQuant compara suas variantes (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) com o FP8 para quantização de KV-cache. O FP8 é recomendado como padrão, oferecendo o dobro da capacidade com perda mínima de precisão e bom desempenho. As variantes do TurboQuant apresentam vantagens limitadas ou degradações significativas em precisão e desempenho, sendo o 4bit-nc uma opção para cenários com restrição de memória.

43