RESEARCH28

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

arXiv CS.LG·8 de abril de 2026

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

pruningKnowledge Distillationmodel efficiencyNeural Network Compressionquantization

Ler original ↗