Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]
Der Benutzer optimiert ein Transformer-Modell hinsichtlich Größe und Inferenzgeschwindigkeit, ist jedoch nach FP16 und ONNX an ein Plateau gestoßen, da Pruning kaum Gewinne brachte. Er sucht Rat zu nächsten Schritten wie Niederrang-Faktorisierung, aggressiver Quantisierung oder Wissensdestillation für echte Verbesserungen.
![[Paper Analysis] The Free Transformer (and some Variational Autoencoder stuff)](/cdn-cgi/image/width=3840,quality=75,format=webp/https://i3.ytimg.com/vi/Nao16-6l6dQ/hqdefault.jpg)