RESEARCH↑ trendingReddit r/LocalLLaMA·vor 26T
A First Comprehensive Study of TurboQuant: Accuracy and Performance
Eine umfassende Studie zu TurboQuant vergleicht dessen Varianten (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) mit FP8 für die KV-Cache-Quantisierung. FP8 wird als Standard empfohlen, da es die doppelte Kapazität mit vernachlässigbarem Genauigkeitsverlust und guter Leistung bietet. TurboQuant-Varianten zeigen begrenzte Vorteile oder erhebliche Einbußen bei Genauigkeit und Leistung, wobei 4bit-nc eine Option für speicherbeschränkte Szenarien ist.

43