Pruning

4 items

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

L'utilisateur optimise un modèle Transformer pour la taille et la vitesse d'inférence, ayant atteint un plateau après FP16 et ONNX, avec un pruning peu efficace. Il demande conseil sur des techniques avancées comme la factorisation de rang faible, la quantification agressive ou la distillation de connaissances pour des améliorations concrètes.

Pruning inference Transformer quantization

RESEARCHDEV.to AI·20/04/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O1-Pruner présente une méthode de réglage fin harmonisant la longueur pour l'élagage du raisonnement de type O1. Cette technique vise à optimiser les modèles pour leurs capacités de raisonnement.

Pruning Reasoning Fine-tuning model optimization

RESEARCHarXiv CS.LG·08/04/2026

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Este artigo propõe um pipeline ordenado (poda, quantização INT8 e destilação de conhecimento) para otimizar a compressão de redes neurais, visando a latência de inferência medida em vez de métricas indiretas. A pesquisa revela que a quantização INT8 oferece o principal benefício de tempo de execução, enquanto a poda atua como um pré-condicionador e a destilação de conhecimento recupera a precisão.

Pruning Knowledge Distillation model efficiency Neural Network Compression

RESEARCHarXiv CS.CL·01/05/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Cette étude explore l'existence de neurones spécifiques à des tâches dans les grands modèles de langage, notamment pour le raisonnement mathématique et la génération de code. Elle propose une métrique de sélectivité basée sur l'activation pour l'élagage des neurones, surpassant l'élagage aléatoire pour réduire les coûts de calcul et maintenir la précision, tout en prévenant l'effondrement des performances.

Pruning AI optimization model collapse large language models