Neural Network Compression

2 items

RESEARCHarXiv CS.LG·4/8/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

RESEARCHarXiv CS.LG·vor 7T

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Diese Arbeit stellt Automatisch Differenzierbare Nichtlineare Tensornetzwerke (ADNTNs) vor, eine Familie strukturierter Gewichtegeneratoren zur exponentiellen Komprimierung von Tiefen Neuronalen Netzwerken. Der Ansatz erweitert die Niedrigrang-Anpassung und Tensorfaktorisierung, indem er große Gewichtstensoren durch eine Hierarchie kleiner Kerne und nichtlinearer Aktivierungen aufbaut.

deep learning Automatic Differentiation machine learning Neural Network Compression