Efficient 8-Bit Quantization of Transformer Neural Machine Language TranslationModel
Cet article aborde la quantification efficace sur 8 bits des modèles de traduction automatique Transformer. L'objectif est d'optimiser les performances et l'efficacité de ces modèles en réduisant la consommation de mémoire et la latence.
