Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]
El usuario optimiza un modelo Transformer para tamaño y velocidad de inferencia, pero ha alcanzado una meseta tras FP16 y ONNX, sin ganancias significativas con poda u optimizaciones de grafo. Busca orientación sobre siguientes pasos como factorización de bajo rango, cuantificación agresiva o destilación de conocimiento para mejoras reales.
![[Paper Analysis] The Free Transformer (and some Variational Autoencoder stuff)](/cdn-cgi/image/width=3840,quality=75,format=webp/https://i3.ytimg.com/vi/Nao16-6l6dQ/hqdefault.jpg)