Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]
Der Benutzer optimiert ein Transformer-Modell hinsichtlich Größe und Inferenzgeschwindigkeit, ist jedoch nach FP16 und ONNX an ein Plateau gestoßen, da Pruning kaum Gewinne brachte. Er sucht Rat zu nächsten Schritten wie Niederrang-Faktorisierung, aggressiver Quantisierung oder Wissensdestillation für echte Verbesserungen.