← heapsort-ai

TurboQuant

1 items

RESEARCH↑ trendingReddit r/LocalLLaMA·hace 26d

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Un estudio exhaustivo sobre TurboQuant compara sus variantes (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) con FP8 para la cuantificación de caché KV. Se recomienda FP8 como predeterminado, ofreciendo el doble de capacidad con una pérdida de precisión insignificante y un buen rendimiento. Las variantes de TurboQuant muestran ventajas limitadas o una degradación significativa en la precisión y el rendimiento, siendo 4bit-nc una opción para escenarios con restricciones de memoria.

A First Comprehensive Study of TurboQuant: Accuracy and Performance
43