Neural Network Compression

2 items

RESEARCHarXiv CS.LG·08/04/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

RESEARCHarXiv CS.LG·il y a 8j

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Cet article introduit les Réseaux Tensoriaux Non Linéaires Différentiables Automatiquement (ADNTNs), une famille de générateurs de poids structurés pour la compression exponentielle des Réseaux Neuronaux Profonds. L'approche est une extension naturelle de l'adaptation de faible rang et de la factorisation tensorielle, utilisant une hiérarchie de petits cœurs et d'activations non linéaires.

deep learning Automatic Differentiation Machine Learning Neural Network Compression