Neural Network Compression

2 items

RESEARCHarXiv CS.LG·08/04/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

RESEARCHarXiv CS.LG·7d atrás

Automatically Differentiable Nonlinear Tensor Networks (ADNTNs) for Exponential Compression of Deep Neural Networks

Este trabalho introduz Redes Tensoriais Não Lineares Diferenciáveis Automaticamente (ADNTNs), que são geradores de peso estruturados para compressão exponencial de Redes Neurais Profundas. A abordagem estende a adaptação de baixa patente e a fatoração tensorial, utilizando uma hierarquia de pequenos núcleos e ativações não lineares para construir tensores de peso grandes.

deep learning Automatic Differentiation machine learning Neural Network Compression