← heapsort-ai

Pruning

4 items

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

L'utilisateur optimise un modèle Transformer pour la taille et la vitesse d'inférence, ayant atteint un plateau après FP16 et ONNX, avec un pruning peu efficace. Il demande conseil sur des techniques avancées comme la factorisation de rang faible, la quantification agressive ou la distillation de connaissances pour des améliorations concrètes.

50
RESEARCHarXiv CS.LG·08/04/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

28
RESEARCHarXiv CS.CL·01/05/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Cette étude explore l'existence de neurones spécifiques à des tâches dans les grands modèles de langage, notamment pour le raisonnement mathématique et la génération de code. Elle propose une métrique de sélectivité basée sur l'activation pour l'élagage des neurones, surpassant l'élagage aléatoire pour réduire les coûts de calcul et maintenir la précision, tout en prévenant l'effondrement des performances.

27