← heapsort-ai

TurboQuant

1 items

RESEARCH↑ trendingReddit r/LocalLLaMA·26d atrás

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Um estudo abrangente sobre o TurboQuant compara suas variantes (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) com o FP8 para quantização de KV-cache. O FP8 é recomendado como padrão, oferecendo o dobro da capacidade com perda mínima de precisão e bom desempenho. As variantes do TurboQuant apresentam vantagens limitadas ou degradações significativas em precisão e desempenho, sendo o 4bit-nc uma opção para cenários com restrição de memória.

A First Comprehensive Study of TurboQuant: Accuracy and Performance
43