Efficient 8-Bit Quantization of Transformer Neural Machine Language TranslationModel
Este artículo trata sobre la cuantificación eficiente de 8 bits para modelos Transformer de traducción automática de idiomas. El objetivo es optimizar el rendimiento y la eficiencia de estos modelos, reduciendo el consumo de memoria y la latencia.
