Efficient 8-Bit Quantization of Transformer Neural Machine Language TranslationModel
Dieser Artikel behandelt die effiziente 8-Bit-Quantisierung von Transformer-Modellen für die neuronale maschinelle Sprachübersetzung. Ziel ist es, die Leistung und Effizienz dieser Modelle durch Reduzierung des Speicherverbrauchs und der Latenz zu optimieren.
