RESEARCH28
Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression
arXiv CS.LG·8 de abril de 2026
Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.
pruningKnowledge Distillationmodel efficiencyNeural Network Compressionquantization
Ler original ↗