Neural Network Compression

2 items

RESEARCHarXiv CS.LG·8/4/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

RESEARCHarXiv CS.LG·hace 8d

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Este trabajo presenta las Redes Tensoriales No Lineales Diferenciables Automáticamente (ADNTNs), una familia de generadores de peso estructurados para la compresión exponencial de Redes Neuronales Profundas. El enfoque se ve como una extensión natural de la adaptación de bajo rango y la factorización tensorial, construyendo tensores de peso grandes a través de una jerarquía de pequeños núcleos y activaciones no lineales.

deep learning Automatic Differentiation Machine Learning Neural Network Compression