Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]
O usuário está otimizando um modelo Transformer para tamanho e velocidade de inferência, mas atingiu um platô após FP16 e ONNX, com poda e otimizações de grafo não trazendo ganhos significativos. Ele busca orientação sobre próximas etapas como fatoração de baixo posto, quantização agressiva ou destilação de conhecimento para melhorias reais.
