ARTICLE↑ trending50
Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]
Reddit r/MachineLearning·23 de abril de 2026
El usuario optimiza un modelo Transformer para tamaño y velocidad de inferencia, pero ha alcanzado una meseta tras FP16 y ONNX, sin ganancias significativas con poda u optimizaciones de grafo. Busca orientación sobre siguientes pasos como factorización de bajo rango, cuantificación agresiva o destilación de conocimiento para mejoras reales.
Leer original ↗